Uniwersytet Mikołaja Kopernika w Toruniu - Centralny punkt logowaniaNie jesteś zalogowany | zaloguj się
katalog przedmiotów - pomoc

Wstęp do data mining

Informacje ogólne

Kod przedmiotu: 0800-WDAM Kod Erasmus / ISCED: (brak danych) / (0612) Database and network design and administration
Nazwa przedmiotu: Wstęp do data mining
Jednostka: Wydział Fizyki, Astronomii i Informatyki Stosowanej
Grupy: Informatyka Stosowana s2. Przedmioty do wyboru specjalistyczne (wszystkie)
Punkty ECTS i inne: 2.00
Język prowadzenia: polski
Całkowity nakład pracy studenta:

Godziny realizowane z udziałem nauczycieli:

- udział w labolatorum 30 h


Czas potrzebny na przygotowanie do zajęć i ich zaliczenie: 30 h

- przygotowanie do ćwiczeń 10h

- przygotowanie do kolokwium 20h


Razem: 60 h (2 ECTS)

Efekty uczenia się - wiedza:

W01 ma zaawansowaną wiedzę z matematyki obejmującą algebrę oraz statystykę i potrafi ją wykorzystać w analizie danych, zna podstawowe modele reprezentacji danych

W04 posiada wiedzę w zakresie tworzenia algorytmów przetwarzania danych (składowania i przetwarzania) oraz potrafi implementować klasyczne algorytmy analizy danych

W06 posiada wiedzę w zakresie programowania w j. Python

W08 posiada podstawową wiedzę związana z procesem analizy danych, zna biblioteki służące do analizy danych (tj. numpy, scipy, nltk, gensim, skimage) oraz podstawowe metody przetwarzania

W10 ma wiedzę związaną z efektywnym wykorzystaniem programowania obiektowego i funkcyjnego w przetwarzaniu danych


Efekty uczenia się - umiejętności:

U01 potrafi wykorzystywać wiedzę do tworzenia opisu problemu, sformułowania modeli reprezentacji i przetwarzania danych

U03 potrafi reprezentować problem analizy danych w modelu grafowym i wykorzystać klasyczne algorytmy grafowe do jego rozwiązania

U04 potrafi pozyskiwać zbiory danych i dodatkową wiedzę oraz je integrować

U06 potrafi planować i przeprowadzać eksperymenty związane z analizą danych a w szczególności z oceną metody klasyfikacji i predykcji

U07 ma umiejętność programowania efektywnych algorytmów przetwarzajacych danych (ładowanie, czyszczenie, transformacja) z wykorzystaniem odpowiednich narzędzi informatycznych

U09 posiada umiejętność przetwarzani tekstu (text minining) z wykorzystaniem klasycznych modeli

U22 potrafi ocenić przydatność narzędzi do rozwiązywania problemów analizy danych

U23 rozumie potrzebę pogłębienia wiedzy z zakresu omawianych metod w celu stosowania ich w środowiskach produkcyjnych

U24 potrafi pracować samodzielnie przy stworzeniu projektu zaliczeniowego i w zespole podczas rozwiazywania zadań cząstkowych w ramach zajeć

Efekty uczenia się - kompetencje społeczne:

K01 ma świadomość skutków wadliwie działających systemów informatycznych, które mogą doprowadzić do strat moralnych i finansowych, a nawet utraty zdrowia czy zagrożenia życia

K02 rozumie potrzebę zachowań profesjonalnych i przestrzegania zasad etyki

K04 potrafi przekazać informację o osiągnięciach informatyki i różnych aspektach zawodu informatyka w sposób powszechnie zrozumiały

K06 uznaje fundamentalne znaczenie wiedzy dla ludzkości, potrafi krytycznie ocenić posiadaną wiedzę oraz zna jej ograniczenia

Metody dydaktyczne eksponujące:

- pokaz

Metody dydaktyczne podające:

- wykład konwersatoryjny
- wykład problemowy

Metody dydaktyczne poszukujące:

- ćwiczeniowa
- giełda pomysłów
- laboratoryjna
- projektu
- referatu

Pełny opis:

Wprowadzenie do Eksploracji Danych ma na celu przybliżenie zagadnień i problematyki związanej z procesem automatycznego odkrywania nietrywialnych, dotychczas nieznanych, potencjalnie użytecznych reguł, zależności, wzorców schematów, podobieństw lub trendów w zbiorach danych. Zajęcia odbywać się będą konwencji problemowej - na przykładzie konkretnych problemów (systemy rekomendujących, grupowania itp) wprowadzane są narzędzia oraz podstawowa teoria.

Program:

(2h) Wprowadzenie do problematyki eksploracji danych, zapoznanie się z narzędziami oraz literaturą, organizacja pracy

(2h) Reprezentacja cech oraz notacja podobieństwa na przykładzie systemu rekomendującego

(2h) Narzędzia i struktury danych, prezentacja wyników

(2h) Regresja liniowa

(2h) Czyszczenie danych i klasyfikacja

(2h) Klasyfikacja - metody ewaluacji wyników

(2h) Przegląd metod klasyfikacji (drzewa decyzyjne, svm, lasy losowe, boosting), koncepcja over-fitting

(2h) Grupowanie

(2h) Implementacja algorytmu grupującego k-means

(2h) Analiza Tekstów - podstawowy model (BOW i TF-IDF) oraz podobieństwo LSA (opartę o dekompozycje macierzy SVD)

(2h) Modele n-gramowe

(2h) Detekcja obiektów odstających.

(2h) Szeregi Czasowe - kroczące okna, reprezentacja cech na przykładzie klasyfikacji aktywności,

(2h) Analiza obrazów - przygotowanie danych, segmentacja i klasyfikacja na przykładzie OCR

(4h) Omówienie projektów zaliczeniowych oraz prezentacje

Literatura:

Daniel T. Larose, “Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych.”

Ian H. Witten, Eibe Frank, “Data Mining: Practical Machine Learning Tools and Techniques”

Steven Bird, Ewan Klein, and Edward Loper “Natural Language Processing with Python”

Metody i kryteria oceniania:

1. Zadania cząstkowe (K_W01, K_W04, K_W06, K_W08, K_W10)

- zaliczenie

2. wykonanie projektu z zakresu analizy wybranego problemu oraz referat

- wykonanie projektu w wersji minimalnej na postawie materiałów uzyskanych na zajęciach -- ocena 3, 3+

- wykonanie projektu ze szczególną starannością (wybranie odpowiedniego modelu i narzędzi, wyniki uzyskane i prezentowane w sposób zgodny ze sztuka) -- ocena: 4, 4+

- wykonanie projektu przy użyciu narzędzi i metody z wykorzystaniem literatury przedmiotu -- ocena: 5+

Zajęcia w cyklu "Semestr letni 2017/18" (zakończony)

Okres: 2018-02-26 - 2018-09-30
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Laboratorium, 30 godzin więcej informacji
Koordynatorzy: Michał Meina
Prowadzący grup: Michał Meina
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Laboratorium - Zaliczenie na ocenę

Zajęcia w cyklu "Semestr letni 2018/19" (zakończony)

Okres: 2019-02-25 - 2019-09-30
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Laboratorium, 30 godzin więcej informacji
Koordynatorzy: Michał Meina
Prowadzący grup: Michał Meina
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Laboratorium - Zaliczenie na ocenę

Zajęcia w cyklu "Semestr letni 2019/20" (zakończony)

Okres: 2020-02-29 - 2020-09-20
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Laboratorium, 30 godzin więcej informacji
Koordynatorzy: Michał Meina
Prowadzący grup: Michał Meina
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Laboratorium - Zaliczenie na ocenę

Zajęcia w cyklu "Semestr letni 2020/21" (w trakcie)

Okres: 2021-02-22 - 2021-09-20
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Laboratorium, 30 godzin więcej informacji
Koordynatorzy: Michał Meina
Prowadzący grup: Michał Meina
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Laboratorium - Zaliczenie na ocenę
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Mikołaja Kopernika w Toruniu.