Wstęp do data mining
Informacje ogólne
Kod przedmiotu: | 0800-WDAM |
Kod Erasmus / ISCED: |
(brak danych)
/
(0612) Database and network design and administration
|
Nazwa przedmiotu: | Wstęp do data mining |
Jednostka: | Wydział Fizyki, Astronomii i Informatyki Stosowanej |
Grupy: | |
Punkty ECTS i inne: |
(brak)
|
Język prowadzenia: | polski |
Całkowity nakład pracy studenta: | Godziny realizowane z udziałem nauczycieli: - udział w labolatorum 30 h Czas potrzebny na przygotowanie do zajęć i ich zaliczenie: 30 h - przygotowanie do ćwiczeń 10h - przygotowanie do kolokwium 20h Razem: 60 h (2 ECTS) |
Efekty uczenia się - wiedza: | W01 ma zaawansowaną wiedzę z matematyki obejmującą algebrę oraz statystykę i potrafi ją wykorzystać w analizie danych, zna podstawowe modele reprezentacji danych W04 posiada wiedzę w zakresie tworzenia algorytmów przetwarzania danych (składowania i przetwarzania) oraz potrafi implementować klasyczne algorytmy analizy danych W06 posiada wiedzę w zakresie programowania w j. Python W08 posiada podstawową wiedzę związana z procesem analizy danych, zna biblioteki służące do analizy danych (tj. numpy, scipy, nltk, gensim, skimage) oraz podstawowe metody przetwarzania W10 ma wiedzę związaną z efektywnym wykorzystaniem programowania obiektowego i funkcyjnego w przetwarzaniu danych |
Efekty uczenia się - umiejętności: | U01 potrafi wykorzystywać wiedzę do tworzenia opisu problemu, sformułowania modeli reprezentacji i przetwarzania danych U03 potrafi reprezentować problem analizy danych w modelu grafowym i wykorzystać klasyczne algorytmy grafowe do jego rozwiązania U04 potrafi pozyskiwać zbiory danych i dodatkową wiedzę oraz je integrować U06 potrafi planować i przeprowadzać eksperymenty związane z analizą danych a w szczególności z oceną metody klasyfikacji i predykcji U07 ma umiejętność programowania efektywnych algorytmów przetwarzajacych danych (ładowanie, czyszczenie, transformacja) z wykorzystaniem odpowiednich narzędzi informatycznych U09 posiada umiejętność przetwarzani tekstu (text minining) z wykorzystaniem klasycznych modeli U22 potrafi ocenić przydatność narzędzi do rozwiązywania problemów analizy danych U23 rozumie potrzebę pogłębienia wiedzy z zakresu omawianych metod w celu stosowania ich w środowiskach produkcyjnych U24 potrafi pracować samodzielnie przy stworzeniu projektu zaliczeniowego i w zespole podczas rozwiazywania zadań cząstkowych w ramach zajeć |
Efekty uczenia się - kompetencje społeczne: | K01 ma świadomość skutków wadliwie działających systemów informatycznych, które mogą doprowadzić do strat moralnych i finansowych, a nawet utraty zdrowia czy zagrożenia życia K02 rozumie potrzebę zachowań profesjonalnych i przestrzegania zasad etyki K04 potrafi przekazać informację o osiągnięciach informatyki i różnych aspektach zawodu informatyka w sposób powszechnie zrozumiały K06 uznaje fundamentalne znaczenie wiedzy dla ludzkości, potrafi krytycznie ocenić posiadaną wiedzę oraz zna jej ograniczenia |
Metody dydaktyczne eksponujące: | - pokaz |
Metody dydaktyczne podające: | - wykład konwersatoryjny |
Metody dydaktyczne poszukujące: | - ćwiczeniowa |
Pełny opis: |
Wprowadzenie do Eksploracji Danych ma na celu przybliżenie zagadnień i problematyki związanej z procesem automatycznego odkrywania nietrywialnych, dotychczas nieznanych, potencjalnie użytecznych reguł, zależności, wzorców schematów, podobieństw lub trendów w zbiorach danych. Zajęcia odbywać się będą konwencji problemowej - na przykładzie konkretnych problemów (systemy rekomendujących, grupowania itp) wprowadzane są narzędzia oraz podstawowa teoria. Program: (2h) Wprowadzenie do problematyki eksploracji danych, zapoznanie się z narzędziami oraz literaturą, organizacja pracy (2h) Reprezentacja cech oraz notacja podobieństwa na przykładzie systemu rekomendującego (2h) Narzędzia i struktury danych, prezentacja wyników (2h) Regresja liniowa (2h) Czyszczenie danych i klasyfikacja (2h) Klasyfikacja - metody ewaluacji wyników (2h) Przegląd metod klasyfikacji (drzewa decyzyjne, svm, lasy losowe, boosting), koncepcja over-fitting (2h) Grupowanie (2h) Implementacja algorytmu grupującego k-means (2h) Analiza Tekstów - podstawowy model (BOW i TF-IDF) oraz podobieństwo LSA (opartę o dekompozycje macierzy SVD) (2h) Modele n-gramowe (2h) Detekcja obiektów odstających. (2h) Szeregi Czasowe - kroczące okna, reprezentacja cech na przykładzie klasyfikacji aktywności, (2h) Analiza obrazów - przygotowanie danych, segmentacja i klasyfikacja na przykładzie OCR (4h) Omówienie projektów zaliczeniowych oraz prezentacje |
Literatura: |
Daniel T. Larose, “Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych.” Ian H. Witten, Eibe Frank, “Data Mining: Practical Machine Learning Tools and Techniques” Steven Bird, Ewan Klein, and Edward Loper “Natural Language Processing with Python” |
Metody i kryteria oceniania: |
1. Zadania cząstkowe (K_W01, K_W04, K_W06, K_W08, K_W10) - zaliczenie 2. wykonanie projektu z zakresu analizy wybranego problemu oraz referat - wykonanie projektu w wersji minimalnej na postawie materiałów uzyskanych na zajęciach -- ocena 3, 3+ - wykonanie projektu ze szczególną starannością (wybranie odpowiedniego modelu i narzędzi, wyniki uzyskane i prezentowane w sposób zgodny ze sztuka) -- ocena: 4, 4+ - wykonanie projektu przy użyciu narzędzi i metody z wykorzystaniem literatury przedmiotu -- ocena: 5+ |
Właścicielem praw autorskich jest Uniwersytet Mikołaja Kopernika w Toruniu.