Uniwersytet Mikołaja Kopernika w Toruniu - Centralny punkt logowaniaNie jesteś zalogowany | zaloguj się
katalog przedmiotów - pomoc

Text mining

Informacje ogólne

Kod przedmiotu: 1000-AD-TextMin Kod Erasmus / ISCED: (brak danych) / (0613) Tworzenie i analiza oprogramowania i aplikacji
Nazwa przedmiotu: Text mining
Jednostka: Wydział Matematyki i Informatyki
Grupy:
Punkty ECTS i inne: 6.00
Język prowadzenia: polski
Wymagania wstępne:

Znajomość podstaw algebry liniowej, rachunku prawdopodobieństwa oraz statystyki opisowej. Znajomość przynajmniej jednego języka programowania (zalecany Python).

Rodzaj przedmiotu:

przedmiot obowiązkowy

Całkowity nakład pracy studenta:

wykład - 30 godzin

laboratorium – 30 godzin

konsultacje z prowadzącymi zajęcia – 30 godzin

zaliczenie laboratorium i egzamin – 2 godziny

praca własna (rozwiązywanie zadań, studiowanie literatury) - 30 godzin

przygotowanie do egzaminu – 28 godzin


RAZEM: 150 godzin (6 punktów ECTS)


Efekty uczenia się - wiedza:

W1. Dostrzega różnice między danymi ustrukturyzowanymi i nieustrukturyzowanymi, rozumie specyficzne problemy i trudności związane z przetwarzaniem i analizowaniem danych nieustrukturyzowanych (K_W02, K_W03).

W2. Ma wiedzę na temat metod statystycznych przydatnych w analizie danych nieustrukturyzowanych oraz zna ich przykładowe zastosowania prowadzące do znalezienia zależności pomiędzy tymi danymi (K_W05).

W3. Zna główne zagadnienia eksploracji tekstu (klasyfikacja, grupowanie, wyszukiwanie informacji, wydobywanie informacji, analiza sentymentu) oraz podstawowe algorytmy stosowane do ich rozwiązania (K_W08).

W4. Zna najważniejsze narzędzia i biblioteki programistyczne przeznaczone do przetwarzania i analizy danych nieustrukturyzowanych (K_W10-K_W12).


Efekty uczenia się - umiejętności:

U1. Umie pobrać dane tekstowe z ogólnodostępnych zasobów, w tym serwisów internetowych i platform mediów społecznościowych (K_U03).

U2. Potrafi wyodrębnić kluczowe cechy dokumentów tekstowych i przekształcić je do postaci wektorowej, nadającej się do analiz (K_U04).

U3.Umie dokonać klasyfikacji i grupowania zbiorów dokumentów tekstowych z wykorzystaniem odpowiednich algorytmów i narzędzi (K_U07, K_U10, K_U13, K_U16).

U4.Potrafi wyznaczyć najważniejsze metryki sieci społecznościowej w szczególności miary centralności, wykrywać ukryte podgrupy w sieciach oraz przeprowadzić prostą analizę zachowania użytkowników sieci (K_U10, K_U16).

Efekty uczenia się - kompetencje społeczne:

K1. Potrafi sformułować problem eksploracji danych tekstowych w sposób zrozumiały zarówno dla osób, z którymi współpracuje w tym obszarze, jak i ekspertów analityków (K_K05).

K2. Ma świadomość etycznych i prawnych ograniczeń związanych z pobieraniem, przechowywaniem i analizą danych tekstowych (K_K07).

K3. Rozumie potrzebę ciągłego poszerzania i aktualizowania wiedzy z zakresu analizy danych tekstowych (K_K02).


Metody dydaktyczne podające:

- wykład informacyjny (konwencjonalny)
- wykład konwersatoryjny

Metody dydaktyczne poszukujące:

- studium przypadku

Skrócony opis:

Obecnie zdecydowana większość (około 80%) informacji przechowywana jest w postaci zwykłego tekstu, text-mining jest powszechnie uznawany za dziedzinę wiedzy o wysokim potencjale komercyjnym.

Celem przedmiotu jest zapoznanie studentów z najważniejszymi zagadnieniami związanymi z wydobywaniem informacji z nieustrukturyzowanych dokumentów tekstowych, eksploracją stron internetowych (ang. web mining) czy danych z sieci społecznościowych (ang. social web mining).

Pełny opis:

Wykład

Program wykładu obejmuje wprowadzenie w tematykę eksploracji danych tekstowych, przedstawienie podstawowych źródeł tych danych oraz omówienie konieczności wstępnego przetwarzania tekstu. Głównym punktem wykładu będzie prezentacja podstawowych algorytmów z zakresu wyszukiwania informacji, klasyfikacji i grupowania dokumentów, wydobywania informacji z tekstu oraz modelowania tematycznego. Na koniec omówione zostaną bardziej specjalistyczne zagadnienia związane z analizą sentymentu oraz wydobywaniem informacji z sieci społecznościowych.

Laboratorium

Program zajęć laboratoryjnych obejmuje przedstawienie możliwości języka programowania Python w zakresie analizy danych tekstowych. Treści i algorytmy omawiane na wykładzie zostaną wykorzystane do analizy rzeczywistych danych tekstowych.

Literatura:

Literatura podstawowa:

- S. M. Weiss, N. Indurkhya, T. Zhang - Fundamentals of Predictive Text Mining, Second Edition, Springer, 2015.

- Ch. Aggarval, Ch. Zhai - Mining Text Data, Springer, 2012.

- Ch. D. Manning, P. Raghavan, H. Schutze - Introduction to Information Retrieval, Cambridge University Press, 2009.

Literatura uzupełniająca:

- Ch. Aggarwal - Machine Learning for Text, Springer, 2018

- J. Perkins - Python 3 Text Processing with NLTK Cookbook, Packt Publishing, 2014.

- M. A. Russell, M. Klassen – Data Mining. Eksploracja danych w sieciach społecznościowych, Wydanie 3. Helion , 2019.

- B. Liu - Sentiment Analysis, Cambridge University Press, 2015

Metody i kryteria oceniania:

Egzamin ustny - W1, W2, W3, K1, K3

Zadania o charakterze analitycznym i programistycznym – W4, U1, U2, U3,U4, K1, K2

Aktywność na zajęciach – K1

Praktyki zawodowe:

Nie dotyczy.

Zajęcia w cyklu "Semestr letni 2020/21" (jeszcze nie rozpoczęty)

Okres: 2021-02-22 - 2021-09-20
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Laboratorium, 30 godzin, 16 miejsc więcej informacji
Wykład, 30 godzin, 30 miejsc więcej informacji
Koordynatorzy: Bartosz Ziemkiewicz
Prowadzący grup: Bartosz Ziemkiewicz
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Egzamin
Laboratorium - Zaliczenie na ocenę
Wykład - Egzamin
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Mikołaja Kopernika w Toruniu.