Wykład monograficzny
Informacje ogólne
Kod przedmiotu: | 1000-I2M1901cd |
Kod Erasmus / ISCED: | (brak danych) / (brak danych) |
Nazwa przedmiotu: | Wykład monograficzny |
Jednostka: | Wydział Matematyki i Informatyki |
Grupy: | |
Punkty ECTS i inne: |
(brak)
|
Język prowadzenia: | polski |
Wymagania wstępne: | Dobra znajomość przynajmniej jednego języka programowania (zalecany Python, ale może być też Java lub C++). Znajomość podstaw algebry liniowej (macierze, wektory i operacje na nich), rachunku prawdopodobieństwa (prawdopodobieństwo klasyczne i warunkowe) oraz statystyki opisowej (średnia, mediana, wariancja itp.). |
Rodzaj przedmiotu: | przedmiot fakultatywny |
Całkowity nakład pracy studenta: | wykład - 30 godzin praca własna, studiowanie literatury - 30 godzin konsultacje z prowadzącym zajęcia - 10 godzin przygotowanie do egzaminu - 30 godzin RAZEM: 100 godzin 4 punkty ECTS |
Efekty uczenia się - wiedza: | W1. Dostrzega różnice między danymi ustrukturyzowanymi i nieustrukturyzowanymi, rozumie specyficzne problemy i trudności związane z przetwarzaniem i analizowaniem danych nieustrukturyzowanych (K_W05, K_W06, K_W08). W2. Zna najważniejsze metody wyodrębniania kluczowych cech dokumentów tekstowych i przekształcania ich do postaci numerycznej, nadającej się do analizy (K_W08). W3. Dla każdego z podstawowych problemów eksploracji tekstu (klasyfikacja, grupowanie, wyszukiwanie informacji) zna przynajmniej jeden algorytm stosowany do jego rozwiązania (K_W08, K_W10). (Kody odnoszą się do efektów dla studiów 2 stopnia na kierunku informatyka.) |
Efekty uczenia się - umiejętności: | U1. Potrafi znaleźć potrzebne dane w zbiorach danych ogólnie dostępnych, umie pobrać dane i przekształcić je do postaci nadającej się do analizy (K_U10, K_U12). U2. Umie wybrać algorytm eksploracji danych odpowiedni do konkretnego zagadnienia, oraz zaprezentować jego działanie na przykładowych danych (K_U10). (Kody odnoszą się do efektów dla studiów 2 stopnia na kierunku informatyka.) |
Efekty uczenia się - kompetencje społeczne: | K1. Potrafi sformułować problem eksploracji danych tekstowych w sposób zrozumiały zarówno dla osób, z którymi współpracuje w tym obszarze, jak i ekspertów analityków. (K_K02, K_K05) K2. Potrafi czerpać wiedzę z danych i na tej podstawie formułować propozycje rozwiązania sytuacji problemowych. (K_K03) (Kody odnoszą się do efektów dla studiów 2 stopnia na kierunku informatyka.) |
Metody dydaktyczne podające: | - wykład informacyjny (konwencjonalny) |
Skrócony opis: |
Tematyka wykładu obejmować będzie różnorodne zagadnienia związane z eksploracją tekstu (ang. text mining) czyli wydobywaniem informacji z nieustrukturyzowanych dokumentów tekstowych, eksploracją stron internetowych (ang. web mining) czy danych z sieci społecznościowych (ang. social web mining). Wykład połączony jest z seminarium magisterskim 1000-I2SEMmgrI (grupa 1). Eksploracja tekstu to interdyscyplinarna dziedzina wiedzy łącząca w sobie zagadnienia klasycznej eksploracji danych, uczenia maszynowego, statystyki oraz przetwarzania języka naturalnego. Jej początki datuje się na połowę lat 80-tych XX wieku, a od początku XXI wieku możemy obserwować jej szybki rozwój. Ponieważ obecnie zdecydowana większość (około 80%) informacji przechowywana jest w postaci zwykłego tekstu, text-mining jest powszechnie uznawany za dziedzinę wiedzy o wysokim potencjale komercyjnym. |
Pełny opis: |
- Wprowadzenie do eksploracji danych tekstowych (historia, główne zadania i zastosowania). - Podstawowe źródła danych tekstowych (korpusy tekstowe, cyfrowe repozytoria, strony internetowe, media społecznościowe). - Wstępne przetwarzanie tekstu - tokenizacja, usuwanie stop-wordsów, normalizacja, lematyzacja i stemming. - Metody strukturyzacji tekstu - standardowy model boolowski, bag-of-words, ogólny model wektorowy, tf-idf, n-gramy, word-embeddings. - Wyszukiwanie informacji (information retrieval): indeks odwrócony, miary podobieństwa, ranking wyników, analiza linków (PageRank, HITS), architektury komercyjnych systemów, mierzenie jakości zwracanych wyników. - Klasyfikacja dokumentów - (algorytmy nieomawiane wcześniej na innych przedmiotach np. naiwny Bayes, SVM, Rocchio). - Grupowanie dokumentów - (algorytmy nieomawiane wcześniej, np. EM, hierarchiczne podziałowe PDDP). - Wydobywanie informacji z tekstu (Information Extraction) - rozpoznawanie nazw własnych (named entity recognition), wykrywanie nawiązań i związków między pojęciami (coreference resolution, relationship extraction), wypełnianie szablonów (template filling), automatyczne tworzenie streszczeń (automatic text summarization). - Modelowanie tematyczne - wykrywanie ukrytej struktury tematycznej w dokumentach, LSA, pLSA, LDA, zastosowanie do redukcji wymiaru i grupowania. - Analiza sentymentu - podstawowe pojęcia, zastosowania, analiza na poziomie dokumentu, zdania i aspektu, metody nadzorowane i nienadzorowane, analiza debat i komentarzy, wykrywanie fałszywych opinii. - Sieci społecznościowe - podstawowe pojęcia, związki z teorią grafów, modele sieci, miary w sieci (centralności, przechodniości, wzajemności, podobieństwa), analiza społeczności (wykrywanie i ewolucja), rozprzestrzenianie się informacji w sieci, analiza zachowań w sieci. |
Literatura: |
* Ch. D. Manning, P. Raghavan, H. Schutze - Introduction to Information Retrieval, Cambridge University Press, 2009. * Ch. Aggarval, Ch. Zhai - Mining Text Data, Springer, 2012. * Ch. Aggarwal - Machine Learning for Text, Springer, 2018 * S. M. Weiss, N. Indurkhya, T. Zhang - Fundamentals of Predictive Text Mining, Second Edition, Springer, 2015. * J. Perkins - Python 3 Text Processing with NLTK Cookbook, Packt Publishing, 2014. * M. A. Russell - Mining the Social Web. Second Edition, O'Reilly, 2014. * B. Liu - Sentiment Analysis, Cambridge University Press, 2015 |
Metody i kryteria oceniania: |
Egzamin ustny - W1, W2, W3, U1, U2, K1, K2 |
Właścicielem praw autorskich jest Uniwersytet Mikołaja Kopernika w Toruniu.