Uniwersytet Mikołaja Kopernika w Toruniu - Centralny punkt logowania
Strona główna

Wstęp do data mining

Informacje ogólne

Kod przedmiotu: 0800-WDAM
Kod Erasmus / ISCED: (brak danych) / (0612) Database and network design and administration Kod ISCED - Międzynarodowa Standardowa Klasyfikacja Kształcenia (International Standard Classification of Education) została opracowana przez UNESCO.
Nazwa przedmiotu: Wstęp do data mining
Jednostka: Wydział Fizyki, Astronomii i Informatyki Stosowanej
Grupy:
Punkty ECTS i inne: (brak) Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.

zobacz reguły punktacji
Język prowadzenia: polski
Całkowity nakład pracy studenta:

Godziny realizowane z udziałem nauczycieli:

- udział w labolatorum 30 h


Czas potrzebny na przygotowanie do zajęć i ich zaliczenie: 30 h

- przygotowanie do ćwiczeń 10h

- przygotowanie do kolokwium 20h


Razem: 60 h (2 ECTS)

Efekty uczenia się - wiedza:

W01 ma zaawansowaną wiedzę z matematyki obejmującą algebrę oraz statystykę i potrafi ją wykorzystać w analizie danych, zna podstawowe modele reprezentacji danych

W04 posiada wiedzę w zakresie tworzenia algorytmów przetwarzania danych (składowania i przetwarzania) oraz potrafi implementować klasyczne algorytmy analizy danych

W06 posiada wiedzę w zakresie programowania w j. Python

W08 posiada podstawową wiedzę związana z procesem analizy danych, zna biblioteki służące do analizy danych (tj. numpy, scipy, nltk, gensim, skimage) oraz podstawowe metody przetwarzania

W10 ma wiedzę związaną z efektywnym wykorzystaniem programowania obiektowego i funkcyjnego w przetwarzaniu danych


Efekty uczenia się - umiejętności:

U01 potrafi wykorzystywać wiedzę do tworzenia opisu problemu, sformułowania modeli reprezentacji i przetwarzania danych

U03 potrafi reprezentować problem analizy danych w modelu grafowym i wykorzystać klasyczne algorytmy grafowe do jego rozwiązania

U04 potrafi pozyskiwać zbiory danych i dodatkową wiedzę oraz je integrować

U06 potrafi planować i przeprowadzać eksperymenty związane z analizą danych a w szczególności z oceną metody klasyfikacji i predykcji

U07 ma umiejętność programowania efektywnych algorytmów przetwarzajacych danych (ładowanie, czyszczenie, transformacja) z wykorzystaniem odpowiednich narzędzi informatycznych

U09 posiada umiejętność przetwarzani tekstu (text minining) z wykorzystaniem klasycznych modeli

U22 potrafi ocenić przydatność narzędzi do rozwiązywania problemów analizy danych

U23 rozumie potrzebę pogłębienia wiedzy z zakresu omawianych metod w celu stosowania ich w środowiskach produkcyjnych

U24 potrafi pracować samodzielnie przy stworzeniu projektu zaliczeniowego i w zespole podczas rozwiazywania zadań cząstkowych w ramach zajeć

Efekty uczenia się - kompetencje społeczne:

K01 ma świadomość skutków wadliwie działających systemów informatycznych, które mogą doprowadzić do strat moralnych i finansowych, a nawet utraty zdrowia czy zagrożenia życia

K02 rozumie potrzebę zachowań profesjonalnych i przestrzegania zasad etyki

K04 potrafi przekazać informację o osiągnięciach informatyki i różnych aspektach zawodu informatyka w sposób powszechnie zrozumiały

K06 uznaje fundamentalne znaczenie wiedzy dla ludzkości, potrafi krytycznie ocenić posiadaną wiedzę oraz zna jej ograniczenia

Metody dydaktyczne eksponujące:

- pokaz

Metody dydaktyczne podające:

- wykład konwersatoryjny
- wykład problemowy

Metody dydaktyczne poszukujące:

- ćwiczeniowa
- giełda pomysłów
- laboratoryjna
- projektu
- referatu

Pełny opis:

Wprowadzenie do Eksploracji Danych ma na celu przybliżenie zagadnień i problematyki związanej z procesem automatycznego odkrywania nietrywialnych, dotychczas nieznanych, potencjalnie użytecznych reguł, zależności, wzorców schematów, podobieństw lub trendów w zbiorach danych. Zajęcia odbywać się będą konwencji problemowej - na przykładzie konkretnych problemów (systemy rekomendujących, grupowania itp) wprowadzane są narzędzia oraz podstawowa teoria.

Program:

(2h) Wprowadzenie do problematyki eksploracji danych, zapoznanie się z narzędziami oraz literaturą, organizacja pracy

(2h) Reprezentacja cech oraz notacja podobieństwa na przykładzie systemu rekomendującego

(2h) Narzędzia i struktury danych, prezentacja wyników

(2h) Regresja liniowa

(2h) Czyszczenie danych i klasyfikacja

(2h) Klasyfikacja - metody ewaluacji wyników

(2h) Przegląd metod klasyfikacji (drzewa decyzyjne, svm, lasy losowe, boosting), koncepcja over-fitting

(2h) Grupowanie

(2h) Implementacja algorytmu grupującego k-means

(2h) Analiza Tekstów - podstawowy model (BOW i TF-IDF) oraz podobieństwo LSA (opartę o dekompozycje macierzy SVD)

(2h) Modele n-gramowe

(2h) Detekcja obiektów odstających.

(2h) Szeregi Czasowe - kroczące okna, reprezentacja cech na przykładzie klasyfikacji aktywności,

(2h) Analiza obrazów - przygotowanie danych, segmentacja i klasyfikacja na przykładzie OCR

(4h) Omówienie projektów zaliczeniowych oraz prezentacje

Literatura:

Daniel T. Larose, “Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych.”

Ian H. Witten, Eibe Frank, “Data Mining: Practical Machine Learning Tools and Techniques”

Steven Bird, Ewan Klein, and Edward Loper “Natural Language Processing with Python”

Metody i kryteria oceniania:

1. Zadania cząstkowe (K_W01, K_W04, K_W06, K_W08, K_W10)

- zaliczenie

2. wykonanie projektu z zakresu analizy wybranego problemu oraz referat

- wykonanie projektu w wersji minimalnej na postawie materiałów uzyskanych na zajęciach -- ocena 3, 3+

- wykonanie projektu ze szczególną starannością (wybranie odpowiedniego modelu i narzędzi, wyniki uzyskane i prezentowane w sposób zgodny ze sztuka) -- ocena: 4, 4+

- wykonanie projektu przy użyciu narzędzi i metody z wykorzystaniem literatury przedmiotu -- ocena: 5+

Przedmiot nie jest oferowany w żadnym z aktualnych cykli dydaktycznych.
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Mikołaja Kopernika w Toruniu.
ul. Jurija Gagarina 11, 87-100 Toruń tel: +48 56 611-40-10 https://usosweb.umk.pl/ kontakt deklaracja dostępności mapa serwisu USOSweb 7.1.0.0-4 (2024-09-03)