Text mining
Informacje ogólne
Kod przedmiotu: | 1000-AD-TextMin |
Kod Erasmus / ISCED: |
(brak danych)
/
(0613) Tworzenie i analiza oprogramowania i aplikacji
|
Nazwa przedmiotu: | Text mining |
Jednostka: | Wydział Matematyki i Informatyki |
Grupy: | |
Punkty ECTS i inne: |
6.00
|
Język prowadzenia: | polski |
Wymagania wstępne: | Znajomość podstaw algebry liniowej, rachunku prawdopodobieństwa oraz statystyki opisowej. Znajomość przynajmniej jednego języka programowania (zalecany Python). |
Rodzaj przedmiotu: | przedmiot obligatoryjny |
Całkowity nakład pracy studenta: | 1. Godziny realizowane z udziałem nauczycieli a) wykład - 30 godzin b) laboratorium – 30 godzin c) bieżące przygotowanie do zajęć, w tym rozwiązywanie zadań zleconych przez prowadzących, zapoznanie się z informacją zwrotną dotyczącą rozwiązanych zadań oraz konsultacje z prowadzącymi zajęcia – 30 godzin. 2. Czas poświęcony na pracę indywidualną studenta potrzebny do pomyślnego zaliczenia przedmiotu: a) studiowanie literatury) - 15 godzin b) przygotowywanie projektów zaliczeniowych - 30 godzin 3. Czas wymagany do przygotowania się do uczestnictwa w procesie oceniania (np. w egzaminach): a) przygotowanie do egzaminu – 15 godzin RAZEM: 150 godzin (6 punktów ECTS) |
Efekty uczenia się - wiedza: | W1. Dostrzega różnice między danymi ustrukturyzowanymi i nieustrukturyzowanymi, rozumie specyficzne problemy i trudności związane z przetwarzaniem i analizowaniem danych nieustrukturyzowanych (K_W02, K_W03). W2. Ma wiedzę na temat metod statystycznych przydatnych w analizie danych nieustrukturyzowanych oraz zna ich przykładowe zastosowania prowadzące do znalezienia zależności pomiędzy tymi danymi (K_W05). W3. Zna główne zagadnienia eksploracji tekstu (klasyfikacja, grupowanie, wyszukiwanie informacji, wydobywanie informacji, analiza sentymentu) oraz podstawowe algorytmy stosowane do ich rozwiązania (K_W08). W4. Zna najważniejsze narzędzia i biblioteki programistyczne przeznaczone do przetwarzania i analizy danych nieustrukturyzowanych (K_W10-K_W12). |
Efekty uczenia się - umiejętności: | U1. Umie pobrać dane tekstowe z ogólnodostępnych zasobów, w tym serwisów internetowych i platform mediów społecznościowych (K_U03). U2. Potrafi wyodrębnić kluczowe cechy dokumentów tekstowych i przekształcić je do postaci wektorowej, nadającej się do analiz (K_U04). U3.Umie dokonać klasyfikacji i grupowania zbiorów dokumentów tekstowych z wykorzystaniem odpowiednich algorytmów i narzędzi (K_U07, K_U10, K_U13, K_U16). |
Efekty uczenia się - kompetencje społeczne: | K1. Potrafi sformułować problem eksploracji danych tekstowych w sposób zrozumiały zarówno dla osób, z którymi współpracuje w tym obszarze, jak i ekspertów analityków (K_K05). K2. Ma świadomość etycznych i prawnych ograniczeń związanych z pobieraniem, przechowywaniem i analizą danych tekstowych (K_K07). K3. Rozumie potrzebę ciągłego poszerzania i aktualizowania wiedzy z zakresu analizy danych tekstowych (K_K02). |
Metody dydaktyczne podające: | - wykład informacyjny (konwencjonalny) |
Metody dydaktyczne poszukujące: | - studium przypadku |
Skrócony opis: |
Obecnie zdecydowana większość (około 80%) informacji przechowywana jest w postaci zwykłego tekstu, text-mining jest powszechnie uznawany za dziedzinę wiedzy o wysokim potencjale komercyjnym. Celem przedmiotu jest zapoznanie studentów z najważniejszymi zagadnieniami związanymi z wydobywaniem informacji z nieustrukturyzowanych dokumentów tekstowych, eksploracją stron internetowych (ang. web mining) czy danych z sieci społecznościowych (ang. social web mining). |
Pełny opis: |
Wykład Program wykładu obejmuje wprowadzenie w tematykę eksploracji danych tekstowych, przedstawienie podstawowych źródeł tych danych oraz omówienie konieczności wstępnego przetwarzania tekstu. Głównym punktem wykładu będzie prezentacja podstawowych algorytmów z zakresu wyszukiwania informacji, klasyfikacji i grupowania dokumentów, wydobywania informacji z tekstu oraz modelowania tematycznego. Laboratorium Program zajęć laboratoryjnych obejmuje przedstawienie możliwości języka programowania Python w zakresie analizy danych tekstowych. Treści i algorytmy omawiane na wykładzie zostaną wykorzystane do analizy rzeczywistych danych tekstowych. |
Literatura: |
Literatura podstawowa: - H. Lane, C. Howard, H. M. Hapke - Przetwarzanie języka naturalnego w akcji, PWN, 2021. - S. M. Weiss, N. Indurkhya, T. Zhang - Fundamentals of Predictive Text Mining, Second Edition, Springer, 2015. - S. Vajjala, B. Majumder, A. Gupta, H. Surana - Przetwarzanie języka naturalnego w praktyce, Helion 2023. - J. Albrecht, S. Ramachandran, Ch. Winkler - Blueprints for Text Analytics Using Python, O'Reilly 2020 Literatura uzupełniająca: - Ch. D. Manning, P. Raghavan, H. Schutze - Introduction to Information Retrieval, Cambridge University Press, 2009. - Ch. Aggarwal - Machine Learning for Text, Springer, 2018. - J. Perkins - Python 3 Text Processing with NLTK Cookbook, Packt Publishing, 2014. - B. Liu - Sentiment Analysis, Cambridge University Press, 2015 |
Metody i kryteria oceniania: |
Egzamin ustny - W1, W2, W3, K1, K3 Zadania o charakterze analitycznym i programistycznym – W4, U1, U2, U3,U4, K1, K2 Aktywność na zajęciach – K1 |
Praktyki zawodowe: |
Nie dotyczy. |
Zajęcia w cyklu "Semestr letni 2022/23" (zakończony)
Okres: | 2023-02-20 - 2023-09-30 |
Przejdź do planu
PN WYK
LAB
WT ŚR CZ PT |
Typ zajęć: |
Laboratorium, 30 godzin, 16 miejsc
Wykład, 30 godzin, 30 miejsc
|
|
Koordynatorzy: | Bartosz Ziemkiewicz | |
Prowadzący grup: | Bartosz Ziemkiewicz | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: |
Przedmiot -
Egzamin
Laboratorium - Zaliczenie na ocenę Wykład - Egzamin |
Zajęcia w cyklu "Semestr letni 2023/24" (zakończony)
Okres: | 2024-02-20 - 2024-09-30 |
Przejdź do planu
PN WYK
LAB
WT ŚR CZ PT |
Typ zajęć: |
Laboratorium, 30 godzin, 16 miejsc
Wykład, 30 godzin, 30 miejsc
|
|
Koordynatorzy: | Bartosz Ziemkiewicz | |
Prowadzący grup: | Bartosz Ziemkiewicz | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: |
Przedmiot -
Egzamin
Laboratorium - Zaliczenie na ocenę Wykład - Egzamin |
Zajęcia w cyklu "Semestr letni 2024/25" (w trakcie)
Okres: | 2025-02-24 - 2025-09-20 |
Przejdź do planu
PN WT ŚR CZ WYK
LAB
PT |
Typ zajęć: |
Laboratorium, 30 godzin, 16 miejsc
Wykład, 30 godzin, 30 miejsc
|
|
Koordynatorzy: | (brak danych) | |
Prowadzący grup: | Bartosz Ziemkiewicz | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: |
Przedmiot -
Egzamin
Laboratorium - Zaliczenie na ocenę Wykład - Egzamin |
Zajęcia w cyklu "Semestr letni 2025/26" (jeszcze nie rozpoczęty)
Okres: | 2026-02-23 - 2026-09-20 |
Przejdź do planu
PN WT ŚR CZ PT |
Typ zajęć: |
Laboratorium, 30 godzin, 16 miejsc
Wykład, 30 godzin, 30 miejsc
|
|
Koordynatorzy: | (brak danych) | |
Prowadzący grup: | Bartosz Ziemkiewicz | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: |
Przedmiot -
Egzamin
Laboratorium - Zaliczenie na ocenę Wykład - Egzamin |
Właścicielem praw autorskich jest Uniwersytet Mikołaja Kopernika w Toruniu.