Uniwersytet Mikołaja Kopernika w Toruniu - Centralny punkt logowania
Strona główna

Wstęp do data mining

Informacje ogólne

Kod przedmiotu: 0800-WDAM-IS1
Kod Erasmus / ISCED: (brak danych) / (0613) Tworzenie i analiza oprogramowania i aplikacji Kod ISCED - Międzynarodowa Standardowa Klasyfikacja Kształcenia (International Standard Classification of Education) została opracowana przez UNESCO.
Nazwa przedmiotu: Wstęp do data mining
Jednostka: Wydział Fizyki, Astronomii i Informatyki Stosowanej
Grupy:
Punkty ECTS i inne: 2.00 Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.
Język prowadzenia: polski
Wymagania wstępne:

- umiejętność programowania strukturalnego oraz obiektowego

- podstawowa znajomość analizy matematycznej, algebry i

statystyki

- podstawowa znajomość obsługi systemów kontroli wersji

- znajomość j. angielskiego w stopniu umożliwiającym korzystanie

z dokumentacji technicznej

Rodzaj przedmiotu:

przedmiot obowiązkowy

Całkowity nakład pracy studenta:

Godziny realizowane z udziałem nauczycieli ( 20 godz.):

- udział w laboratoriach 20 godz.

Czas poświęcony na pracę indywidualną studenta ( 30 godz.):

- przygotowanie do laboratorium i sprawdzianów 10 godz.

- realizacja zadań i projektów zaliczeniowych 20 godz.

Łącznie: 50 godz. (2 ECTS)

Efekty uczenia się - wiedza:

W1. Student posiada wiedzę z zakresu matematyki i statystyki

przydatną do formułowania i rozwiązywania zadań analizy i

eksploracji danych (efekty kierunkowe Informatyka Stosowana:

K_W01)

W2. Student zna podstawowe algorytmy uczenia maszynowego

wykorzystywane przy analizie danych (efekty kierunkowe

Informatyka Stosowana K_W04, K_W05, K_W08)

W3. Student zna narzędzia wykorzystywane przy analizie danych

(efekty kierunkowe Informatyka Stosowana: K_W06)

W4. Student zna kryteria wyboru metod eksploracji danych w

zależności od potrzeb i dobiera stosowne narzędzia do

optymalnego rozwiązania problemu (efekty kierunkowe

Informatyka Stosowana: K_W06, K_W07, K_W08)

W5. Student zna mocne i słabe strony wykorzystywanych metod

analizy danych (efekty kierunkowe Informatyka Stosowana:

K_W12)

Efekty uczenia się - umiejętności:

U1. Student wykorzystuje nabytą wiedzę z zakresu matematyki do

znalezienia prawidłowości w danych (efekty kierunkowe


2


Informatyka Stosowana: K_U01, K_U02)

U2. Student potrafi pozyskiwać kluczowe informacje z dużych

zbiorów danych (efekty kierunkowe Informatyka Stosowana:

K_U04, K_U06)

U3. Student potrafi wykorzystywać algorytmy eksploracji danych

do rozwiązywania problemów informatycznych (efekty

kierunkowe Informatyka Stosowana: K_U08, K_U09)

U4. Student korzysta z odpowiednich metod do analizy danych i

potrafi wskazać najbardziej efektywną metodę (efekty kierunkowe

Informatyka Stosowana: K_U012)

U5. Student tworzy skrypty do analizy danych z wykorzystaniem

przeznaczonych do tego narzędzi i bibliotek (efekty kierunkowe

Informatyka Stosowana: K_U013)

U6. Student analizuje dane pochodzące z systemów bazodanowych

różnego pochodzenia (efekty kierunkowe Informatyka Stosowana:

K_U016)

U7. Student dokonuje krytycznej selekcji metod eksploracji danych

i potrafi wskazać różnice pomiędzy nimi (efekty kierunkowe

Informatyka Stosowana: K_U021)

U8. Student potrafi ocenić poprawność metod eksploracji danych,

wykorzystanych w realizacji zadania (efekty kierunkowe

Informatyka Stosowana: K_U022)

U9. Student poszukuje metod, które są bardziej optymalne, na

podstawie wyników analizy danych (efekty kierunkowe

Informatyka Stosowana: K_U023)

U10. Student potrafi współpracować w zespole, oszacować czas

potrzebny na realizację zadania i odpowiednio przydzielać zasoby

niezbędne do realizacji zadania (efekty kierunkowe Informatyka

Stosowana: K_U024)

Efekty uczenia się - kompetencje społeczne:

K1. Student ma świadomość skutków, jakie niesie ze sobą

korzystanie z metod eksploracji danych (efekty kierunkowe

Informatyka Stosowana: K_K01)

K2. Student rozumie problemy etyczne związane z działaniem

metod eksploracji danych (efekty kierunkowe Informatyka

Stosowana: K_K02)

K3. Student wykazuje się skutecznością w rozwiązywaniu

problemów o charakterze naukowo-badawczym i programistyczno-

wdrożeniowym z wykorzystaniem metod informatycznych (efekty

kierunkowe Informatyka Stosowana: K_K03)

K4. Student potrafi przekazywać informacje na temat

zastosowanych technik informatycznych w sposób zrozumiały dla

innych osób (efekty kierunkowe Informatyka Stosowana: K_K04)

K5. Student zna ograniczenia związane z metodami eksploracji

danych (efekty kierunkowe Informatyka Stosowana: K_K06)

Metody dydaktyczne:

- wykład informacyjny, wykład problemowy

- demonstracje i symulacje

- analiza problemów, studium przypadku

- metoda projektu

Metody dydaktyczne podające:

- opis
- opowiadanie
- pogadanka
- wykład konwersatoryjny

Metody dydaktyczne poszukujące:

- ćwiczeniowa
- doświadczeń
- giełda pomysłów
- laboratoryjna
- projektu
- referatu

Skrócony opis:

Kurs stanowi wprowadzenie do zagadnień eksploracji danych z

wykorzystaniem języka Python i pakietu do uczenia maszynowego

scikit-learn. W trakcie zajęć studenci poznają najważniejsze

metody analizy danych i uczenia maszynowego, i uczą się jak

wykorzystywać te metody do skutecznego rozwiązywania

konkretnych, rzeczywistych problemów.

Pełny opis:

Eksploracja danych, czyli Data Mining, to proces odkrywania

wiedzy i ogólnych reguł w danych, które zgromadzone są w

bazach danych, również tych bardzo rozbudowanych.

Wykorzystuje on w tym celu techniki sztucznej inteligencji,

uczenia maszynowego i metody statystyczne. Eksplorację danych

wykorzystuje się tam, gdzie danych jest dużo i niepożądana jest

ingerencja człowieka w proces pozyskania zależności. Jest to więc

narzędzie do analizy danych, generowania raportów i znajdowania

pewnych prawidłowości, które wykorzystane mogą zostać do

podjęcia dalszych działań.

Zajęcia stanowią dwudziestogodzinny kurs wprowadzający do

zagadnień eksploracji danych. W trakcie zajęć studenci poznają

najważniejsze metody stosowane do rozwiązywania problemów

regresji, klasyfikacji i analizy skupień, poznają techniki wstępnej

obróbki danych, redukcji wymiarowości i wykrywania amonali w

danych. Kurs skupia się na praktycznych aspektach wykorzystania

narzędzi analizy danych. Laboratoria realizowane są w języku

Python z wykorzystaniem pakietu z narzędziami uczenia

maszynowego scikit-learn.

Treść kursu:

1. Wstęp do języka Python i notatnika Jupyter

2. Biblioteki NumPy, pandas i Matplotlib, scikit-learn

3. Wstępna obróbka danych

4. Wizualizacja i eksploracja danych

5. Regresja i klasyfikacja

6. Ocena jakości modeli regresji i klasyfikacji

7. Analiza skupień

8. Redukcja wymiarowości danych

9. Analiza obrazów

10. Eksploracja tekstu

Literatura:

Literatura podstawowa:

- P-N. Tan, M. Steinbach, A, Karpatne, V. Kumar, Introduction to

Data Mining – Second edition, 2019, Peaerson

- R. Layton, Learning Data Mining with Python, 2015, Packt

Publishing

- Ch. C. Aggarwal, Data mining: the textbook, 2015, Springer

4

- N. Ye, Data mining: theories, algorithms and examples, 2014,

CRC Press/Taylor & Francis Group

- N. Ye, The Handbook of Data Mining, 2003, Lawrence Erlbaum

Associates, Publishers

Literatura uzupełniająca:

- W. J. Frawley, G. Piatetsky-Shapiro, Ch. J. Matheus, Knowledge

Discovery in Databases: An Overview, AI Magazine, vol. 13 no 3:

Fall 1992

- Sebastian Raschka, Machine Learning with PyTorch and Scikit-

Learn, Packt Publishing, 2022

Wykorzystywane e-materiały:

- Kody źródłowe z zajęć w postaci zeszytów Jupyter Notebook w

języku Python udostępniane przez prowadzącego kurs

- Otwatoźródłowe zbiory danych dostępne w serwisie

http://kaggle.com oraz z repozytorium UC Irvine Machine

Learning Repository https://archive.ics.uci.edu/

- Testowe zbiory danych dostępne w bibliotece scikit-learn -

https://scikit-learn.org/stable/datasets/index.html

- Dokumentacja techniczna biblioteki scikit-learn - https://scikit-

learn.org/stable/index.html

Metody i kryteria oceniania:

Zaliczenie laboratorium odbywa się na podstawie:

- zadań realizowanych w ramach kursu weryfikujących osiągnięcie

efektów U1-U10 i K3

- projektu zaliczeniowego weryfikujących osiągnięcie efektów U1-

U10 oraz K3

- testów, sprawdzianów lub kolokwiów weryfikujących osiągnięcie

efektów W1-W5, K1, K2, K4 i K5

Ocena końcowa wyznaczana wg przelicznika:

51-60% - ocena: 3

61-70% - ocena: 3+

71-80% - ocena: 4

81-90% - ocena: 4+

91-100% - ocena 5

Zajęcia w cyklu "Semestr letni 2021/22" (zakończony)

Okres: 2022-02-21 - 2022-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 20 godzin więcej informacji
Koordynatorzy: Michał Meina
Prowadzący grup: Piotr Ablewski, Marek Grochowski, Michał Meina
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Laboratorium - Zaliczenie na ocenę

Zajęcia w cyklu "Semestr letni 2022/23" (zakończony)

Okres: 2023-02-20 - 2023-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 20 godzin więcej informacji
Koordynatorzy: Michał Meina
Prowadzący grup: Piotr Ablewski, Marek Grochowski, Michał Meina
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Laboratorium - Zaliczenie na ocenę

Zajęcia w cyklu "Semestr letni 2023/24" (w trakcie)

Okres: 2024-02-20 - 2024-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 20 godzin więcej informacji
Koordynatorzy: Michał Meina
Prowadzący grup: Piotr Ablewski, Marek Grochowski, Michał Meina
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Laboratorium - Zaliczenie na ocenę
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Mikołaja Kopernika w Toruniu.
ul. Jurija Gagarina 11, 87-100 Toruń tel: +48 56 611-40-10 https://usosweb.umk.pl/ kontakt deklaracja dostępności USOSweb 7.0.2.0-1 (2024-03-12)