Wstęp do data mining
Informacje ogólne
Kod przedmiotu: | 0800-WDAM-IS1 |
Kod Erasmus / ISCED: |
(brak danych)
/
(0613) Tworzenie i analiza oprogramowania i aplikacji
|
Nazwa przedmiotu: | Wstęp do data mining |
Jednostka: | Wydział Fizyki, Astronomii i Informatyki Stosowanej |
Grupy: | |
Punkty ECTS i inne: |
2.00
|
Język prowadzenia: | polski |
Wymagania wstępne: | - umiejętność programowania strukturalnego oraz obiektowego - podstawowa znajomość analizy matematycznej, algebry i statystyki - podstawowa znajomość obsługi systemów kontroli wersji - znajomość j. angielskiego w stopniu umożliwiającym korzystanie z dokumentacji technicznej |
Rodzaj przedmiotu: | przedmiot obowiązkowy |
Całkowity nakład pracy studenta: | Godziny realizowane z udziałem nauczycieli ( 20 godz.): - udział w laboratoriach 20 godz. Czas poświęcony na pracę indywidualną studenta ( 30 godz.): - przygotowanie do laboratorium i sprawdzianów 10 godz. - realizacja zadań i projektów zaliczeniowych 20 godz. Łącznie: 50 godz. (2 ECTS) |
Efekty uczenia się - wiedza: | W1. Student posiada wiedzę z zakresu matematyki i statystyki przydatną do formułowania i rozwiązywania zadań analizy i eksploracji danych (efekty kierunkowe Informatyka Stosowana: K_W01) W2. Student zna podstawowe algorytmy uczenia maszynowego wykorzystywane przy analizie danych (efekty kierunkowe Informatyka Stosowana K_W04, K_W05, K_W08) W3. Student zna narzędzia wykorzystywane przy analizie danych (efekty kierunkowe Informatyka Stosowana: K_W06) W4. Student zna kryteria wyboru metod eksploracji danych w zależności od potrzeb i dobiera stosowne narzędzia do optymalnego rozwiązania problemu (efekty kierunkowe Informatyka Stosowana: K_W06, K_W07, K_W08) W5. Student zna mocne i słabe strony wykorzystywanych metod analizy danych (efekty kierunkowe Informatyka Stosowana: K_W12) |
Efekty uczenia się - umiejętności: | U1. Student wykorzystuje nabytą wiedzę z zakresu matematyki do znalezienia prawidłowości w danych (efekty kierunkowe 2 Informatyka Stosowana: K_U01, K_U02) U2. Student potrafi pozyskiwać kluczowe informacje z dużych zbiorów danych (efekty kierunkowe Informatyka Stosowana: K_U04, K_U06) U3. Student potrafi wykorzystywać algorytmy eksploracji danych do rozwiązywania problemów informatycznych (efekty kierunkowe Informatyka Stosowana: K_U08, K_U09) U4. Student korzysta z odpowiednich metod do analizy danych i potrafi wskazać najbardziej efektywną metodę (efekty kierunkowe Informatyka Stosowana: K_U012) U5. Student tworzy skrypty do analizy danych z wykorzystaniem przeznaczonych do tego narzędzi i bibliotek (efekty kierunkowe Informatyka Stosowana: K_U013) U6. Student analizuje dane pochodzące z systemów bazodanowych różnego pochodzenia (efekty kierunkowe Informatyka Stosowana: K_U016) U7. Student dokonuje krytycznej selekcji metod eksploracji danych i potrafi wskazać różnice pomiędzy nimi (efekty kierunkowe Informatyka Stosowana: K_U021) U8. Student potrafi ocenić poprawność metod eksploracji danych, wykorzystanych w realizacji zadania (efekty kierunkowe Informatyka Stosowana: K_U022) U9. Student poszukuje metod, które są bardziej optymalne, na podstawie wyników analizy danych (efekty kierunkowe Informatyka Stosowana: K_U023) U10. Student potrafi współpracować w zespole, oszacować czas potrzebny na realizację zadania i odpowiednio przydzielać zasoby niezbędne do realizacji zadania (efekty kierunkowe Informatyka Stosowana: K_U024) |
Efekty uczenia się - kompetencje społeczne: | K1. Student ma świadomość skutków, jakie niesie ze sobą korzystanie z metod eksploracji danych (efekty kierunkowe Informatyka Stosowana: K_K01) K2. Student rozumie problemy etyczne związane z działaniem metod eksploracji danych (efekty kierunkowe Informatyka Stosowana: K_K02) K3. Student wykazuje się skutecznością w rozwiązywaniu problemów o charakterze naukowo-badawczym i programistyczno- wdrożeniowym z wykorzystaniem metod informatycznych (efekty kierunkowe Informatyka Stosowana: K_K03) K4. Student potrafi przekazywać informacje na temat zastosowanych technik informatycznych w sposób zrozumiały dla innych osób (efekty kierunkowe Informatyka Stosowana: K_K04) K5. Student zna ograniczenia związane z metodami eksploracji danych (efekty kierunkowe Informatyka Stosowana: K_K06) |
Metody dydaktyczne: | - wykład informacyjny, wykład problemowy - demonstracje i symulacje - analiza problemów, studium przypadku - metoda projektu |
Metody dydaktyczne podające: | - opis |
Metody dydaktyczne poszukujące: | - ćwiczeniowa |
Skrócony opis: |
Kurs stanowi wprowadzenie do zagadnień eksploracji danych z wykorzystaniem języka Python i pakietu do uczenia maszynowego scikit-learn. W trakcie zajęć studenci poznają najważniejsze metody analizy danych i uczenia maszynowego, i uczą się jak wykorzystywać te metody do skutecznego rozwiązywania konkretnych, rzeczywistych problemów. |
Pełny opis: |
Eksploracja danych, czyli Data Mining, to proces odkrywania wiedzy i ogólnych reguł w danych, które zgromadzone są w bazach danych, również tych bardzo rozbudowanych. Wykorzystuje on w tym celu techniki sztucznej inteligencji, uczenia maszynowego i metody statystyczne. Eksplorację danych wykorzystuje się tam, gdzie danych jest dużo i niepożądana jest ingerencja człowieka w proces pozyskania zależności. Jest to więc narzędzie do analizy danych, generowania raportów i znajdowania pewnych prawidłowości, które wykorzystane mogą zostać do podjęcia dalszych działań. Zajęcia stanowią dwudziestogodzinny kurs wprowadzający do zagadnień eksploracji danych. W trakcie zajęć studenci poznają najważniejsze metody stosowane do rozwiązywania problemów regresji, klasyfikacji i analizy skupień, poznają techniki wstępnej obróbki danych, redukcji wymiarowości i wykrywania amonali w danych. Kurs skupia się na praktycznych aspektach wykorzystania narzędzi analizy danych. Laboratoria realizowane są w języku Python z wykorzystaniem pakietu z narzędziami uczenia maszynowego scikit-learn. Treść kursu: 1. Wstęp do języka Python i notatnika Jupyter 2. Biblioteki NumPy, pandas i Matplotlib, scikit-learn 3. Wstępna obróbka danych 4. Wizualizacja i eksploracja danych 5. Regresja i klasyfikacja 6. Ocena jakości modeli regresji i klasyfikacji 7. Analiza skupień 8. Redukcja wymiarowości danych 9. Analiza obrazów 10. Eksploracja tekstu |
Literatura: |
Literatura podstawowa: - P-N. Tan, M. Steinbach, A, Karpatne, V. Kumar, Introduction to Data Mining – Second edition, 2019, Peaerson - R. Layton, Learning Data Mining with Python, 2015, Packt Publishing - Ch. C. Aggarwal, Data mining: the textbook, 2015, Springer 4 - N. Ye, Data mining: theories, algorithms and examples, 2014, CRC Press/Taylor & Francis Group - N. Ye, The Handbook of Data Mining, 2003, Lawrence Erlbaum Associates, Publishers Literatura uzupełniająca: - W. J. Frawley, G. Piatetsky-Shapiro, Ch. J. Matheus, Knowledge Discovery in Databases: An Overview, AI Magazine, vol. 13 no 3: Fall 1992 - Sebastian Raschka, Machine Learning with PyTorch and Scikit- Learn, Packt Publishing, 2022 Wykorzystywane e-materiały: - Kody źródłowe z zajęć w postaci zeszytów Jupyter Notebook w języku Python udostępniane przez prowadzącego kurs - Otwatoźródłowe zbiory danych dostępne w serwisie http://kaggle.com oraz z repozytorium UC Irvine Machine Learning Repository https://archive.ics.uci.edu/ - Testowe zbiory danych dostępne w bibliotece scikit-learn - https://scikit-learn.org/stable/datasets/index.html - Dokumentacja techniczna biblioteki scikit-learn - https://scikit- learn.org/stable/index.html |
Metody i kryteria oceniania: |
Zaliczenie laboratorium odbywa się na podstawie: - zadań realizowanych w ramach kursu weryfikujących osiągnięcie efektów U1-U10 i K3 - projektu zaliczeniowego weryfikujących osiągnięcie efektów U1- U10 oraz K3 - testów, sprawdzianów lub kolokwiów weryfikujących osiągnięcie efektów W1-W5, K1, K2, K4 i K5 Ocena końcowa wyznaczana wg przelicznika: 51-60% - ocena: 3 61-70% - ocena: 3+ 71-80% - ocena: 4 81-90% - ocena: 4+ 91-100% - ocena 5 |
Zajęcia w cyklu "Semestr letni 2021/22" (zakończony)
Okres: | 2022-02-21 - 2022-09-30 |
Przejdź do planu
PN LAB
WT LAB
LAB
ŚR CZ PT |
Typ zajęć: |
Laboratorium, 20 godzin
|
|
Koordynatorzy: | Michał Meina | |
Prowadzący grup: | Piotr Ablewski, Marek Grochowski, Michał Meina | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: |
Przedmiot -
Zaliczenie na ocenę
Laboratorium - Zaliczenie na ocenę |
Zajęcia w cyklu "Semestr letni 2022/23" (zakończony)
Okres: | 2023-02-20 - 2023-09-30 |
Przejdź do planu
PN LAB
WT ŚR LAB
CZ PT LAB
|
Typ zajęć: |
Laboratorium, 20 godzin
|
|
Koordynatorzy: | Michał Meina | |
Prowadzący grup: | Piotr Ablewski, Marek Grochowski, Michał Meina | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: |
Przedmiot -
Zaliczenie na ocenę
Laboratorium - Zaliczenie na ocenę |
Zajęcia w cyklu "Semestr letni 2023/24" (w trakcie)
Okres: | 2024-02-20 - 2024-09-30 |
Przejdź do planu
PN WT LAB
ŚR CZ LAB
LAB
PT |
Typ zajęć: |
Laboratorium, 20 godzin
|
|
Koordynatorzy: | Michał Meina | |
Prowadzący grup: | Piotr Ablewski, Marek Grochowski, Michał Meina | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: |
Przedmiot -
Zaliczenie na ocenę
Laboratorium - Zaliczenie na ocenę |
Właścicielem praw autorskich jest Uniwersytet Mikołaja Kopernika w Toruniu.