Wykład monograficzny

Informacje ogólne

Kod przedmiotu:	1000-I2M1901cd
Kod Erasmus / ISCED:	(brak danych) / (brak danych)
Nazwa przedmiotu:	Wykład monograficzny
Jednostka:	Wydział Matematyki i Informatyki
Grupy:
Punkty ECTS i inne:	(brak) Podstawowe informacje o zasadach przyporządkowania punktów ECTS: roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS; tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h; 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się; tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS; nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta. zobacz reguły punktacji
Język prowadzenia:	polski
Wymagania wstępne:	Dobra znajomość przynajmniej jednego języka programowania (zalecany Python, ale może być też Java lub C++). Znajomość podstaw algebry liniowej (macierze, wektory i operacje na nich), rachunku prawdopodobieństwa (prawdopodobieństwo klasyczne i warunkowe) oraz statystyki opisowej (średnia, mediana, wariancja itp.).
Rodzaj przedmiotu:	przedmiot fakultatywny
Całkowity nakład pracy studenta:	wykład - 30 godzin praca własna, studiowanie literatury - 30 godzin konsultacje z prowadzącym zajęcia - 10 godzin przygotowanie do egzaminu - 30 godzin RAZEM: 100 godzin 4 punkty ECTS
Efekty uczenia się - wiedza:	W1. Dostrzega różnice między danymi ustrukturyzowanymi i nieustrukturyzowanymi, rozumie specyficzne problemy i trudności związane z przetwarzaniem i analizowaniem danych nieustrukturyzowanych (K_W05, K_W06, K_W08). W2. Zna najważniejsze metody wyodrębniania kluczowych cech dokumentów tekstowych i przekształcania ich do postaci numerycznej, nadającej się do analizy (K_W08). W3. Dla każdego z podstawowych problemów eksploracji tekstu (klasyfikacja, grupowanie, wyszukiwanie informacji) zna przynajmniej jeden algorytm stosowany do jego rozwiązania (K_W08, K_W10). (Kody odnoszą się do efektów dla studiów 2 stopnia na kierunku informatyka.)
Efekty uczenia się - umiejętności:	U1. Potrafi znaleźć potrzebne dane w zbiorach danych ogólnie dostępnych, umie pobrać dane i przekształcić je do postaci nadającej się do analizy (K_U10, K_U12). U2. Umie wybrać algorytm eksploracji danych odpowiedni do konkretnego zagadnienia, oraz zaprezentować jego działanie na przykładowych danych (K_U10). (Kody odnoszą się do efektów dla studiów 2 stopnia na kierunku informatyka.)
Efekty uczenia się - kompetencje społeczne:	K1. Potrafi sformułować problem eksploracji danych tekstowych w sposób zrozumiały zarówno dla osób, z którymi współpracuje w tym obszarze, jak i ekspertów analityków. (K_K02, K_K05) K2. Potrafi czerpać wiedzę z danych i na tej podstawie formułować propozycje rozwiązania sytuacji problemowych. (K_K03) (Kody odnoszą się do efektów dla studiów 2 stopnia na kierunku informatyka.)
Metody dydaktyczne podające:	- wykład informacyjny (konwencjonalny) - wykład konwersatoryjny
Skrócony opis:	Tematyka wykładu obejmować będzie różnorodne zagadnienia związane z eksploracją tekstu (ang. text mining) czyli wydobywaniem informacji z nieustrukturyzowanych dokumentów tekstowych, eksploracją stron internetowych (ang. web mining) czy danych z sieci społecznościowych (ang. social web mining). Wykład połączony jest z seminarium magisterskim 1000-I2SEMmgrI (grupa 1). Eksploracja tekstu to interdyscyplinarna dziedzina wiedzy łącząca w sobie zagadnienia klasycznej eksploracji danych, uczenia maszynowego, statystyki oraz przetwarzania języka naturalnego. Jej początki datuje się na połowę lat 80-tych XX wieku, a od początku XXI wieku możemy obserwować jej szybki rozwój. Ponieważ obecnie zdecydowana większość (około 80%) informacji przechowywana jest w postaci zwykłego tekstu, text-mining jest powszechnie uznawany za dziedzinę wiedzy o wysokim potencjale komercyjnym.
Pełny opis:	- Wprowadzenie do eksploracji danych tekstowych (historia, główne zadania i zastosowania). - Podstawowe źródła danych tekstowych (korpusy tekstowe, cyfrowe repozytoria, strony internetowe, media społecznościowe). - Wstępne przetwarzanie tekstu - tokenizacja, usuwanie stop-wordsów, normalizacja, lematyzacja i stemming. - Metody strukturyzacji tekstu - standardowy model boolowski, bag-of-words, ogólny model wektorowy, tf-idf, n-gramy, word-embeddings. - Wyszukiwanie informacji (information retrieval): indeks odwrócony, miary podobieństwa, ranking wyników, analiza linków (PageRank, HITS), architektury komercyjnych systemów, mierzenie jakości zwracanych wyników. - Klasyfikacja dokumentów - (algorytmy nieomawiane wcześniej na innych przedmiotach np. naiwny Bayes, SVM, Rocchio). - Grupowanie dokumentów - (algorytmy nieomawiane wcześniej, np. EM, hierarchiczne podziałowe PDDP). - Wydobywanie informacji z tekstu (Information Extraction) - rozpoznawanie nazw własnych (named entity recognition), wykrywanie nawiązań i związków między pojęciami (coreference resolution, relationship extraction), wypełnianie szablonów (template filling), automatyczne tworzenie streszczeń (automatic text summarization). - Modelowanie tematyczne - wykrywanie ukrytej struktury tematycznej w dokumentach, LSA, pLSA, LDA, zastosowanie do redukcji wymiaru i grupowania. - Analiza sentymentu - podstawowe pojęcia, zastosowania, analiza na poziomie dokumentu, zdania i aspektu, metody nadzorowane i nienadzorowane, analiza debat i komentarzy, wykrywanie fałszywych opinii. - Sieci społecznościowe - podstawowe pojęcia, związki z teorią grafów, modele sieci, miary w sieci (centralności, przechodniości, wzajemności, podobieństwa), analiza społeczności (wykrywanie i ewolucja), rozprzestrzenianie się informacji w sieci, analiza zachowań w sieci.
Literatura:	* Ch. D. Manning, P. Raghavan, H. Schutze - Introduction to Information Retrieval, Cambridge University Press, 2009. * Ch. Aggarval, Ch. Zhai - Mining Text Data, Springer, 2012. * Ch. Aggarwal - Machine Learning for Text, Springer, 2018 * S. M. Weiss, N. Indurkhya, T. Zhang - Fundamentals of Predictive Text Mining, Second Edition, Springer, 2015. * J. Perkins - Python 3 Text Processing with NLTK Cookbook, Packt Publishing, 2014. * M. A. Russell - Mining the Social Web. Second Edition, O'Reilly, 2014. * B. Liu - Sentiment Analysis, Cambridge University Press, 2015
Metody i kryteria oceniania:	Egzamin ustny - W1, W2, W3, U1, U2, K1, K2

Przedmiot nie jest oferowany w żadnym z aktualnych cykli dydaktycznych.

Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Mikołaja Kopernika w Toruniu.