Wydział Informatyki
Kierunek studiów Matematyka Stosowana Poziom i forma studiów drugiego stopnia stacjonarne
Specjalność / Ścieżka dyplomowania Analityka Danych i Modelowanie Matematyczne Profil kształcenia praktyczny
Nazwa przedmiotu Analiza dużych zbiorów danych Kod przedmiotu MAT2ADZ
Rodzaj przedmiotu obowiązkowy
Forma zajęć i liczba godzin W Ć L P Ps T S Semestr 3
30 45 Punkty ECTS 6
Przedmioty wprowadzające Wybrane techniki programistyczne (MAT2WTP),  
Cele przedmiotu

Zapoznanie studentów ze specyfiką analizy dużych zbiorów danych (Big Data), ze szczególnym uwzględnieniem technologii z ekosystemu Hadoop. Nauczenie studentów praktycznego stosowania wybranych narzędzi i technologii do analizy dużych zbiorów danych.

Treści programowe

Wykład:
1. Specyfika i problemy w analizie dużych zbiorów danych, historia Big Data, przegląd głównych elementów ekosystemu Hadoop.
2. Składowanie danych: rozproszone systemy plików (HDFS), bazy NoSQL, hurtownie danych wielkoskalowych (Apache Hive).
3. Modele obliczeniowe oraz metody przetwarzania i analizy Big Data: model MapReduce, przetwarzania danych w pamięci (Apache Spark), przetwarzanie strumieniowe (Apache Kafka, Spark Streaming), SQL-On-Hadoop (Hive, Presto, Spark SQL).
4. Wybrane biblioteki i narzędzia uczenia maszynowego (Spark MLlib) oraz narzędzia do interaktywnej analizy danych (Apache Zeppelin).
5. Prezentacja praktycznych przykładów zastosowania poznanych narzędzi w analizie dużych zbiorów danych.

Pracownia specjalistyczna:
1. Zapoznanie z narzędziami: Apache Hadoop, Apache Spark, Apache Hive, Presto, Apache Zeppelin.
2. Analiza syntetycznych i rzeczywistych danych z wykorzystaniem poznanych narzędzi.

Metody dydaktyczne

symulacja,   metoda projektów,   dyskusja związana z wykładem,   klasyczna metoda problemowa,   wykład problemowy,   wykład informacyjny,  

Forma zaliczenia

Wykład: pisemny sprawdzian z wiedzy teoretycznej.
Pracownia specjalistyczna: ocena zadań praktycznych realizowanych w trakcie zajęć.

Symbol efektu uczenia się Zakładane efekty uczenia się Odniesienie do kierunkowych efektów uczenia się
EU1 wymienia i opisuje modele programistyczne i metody przetwarzania stosowane w analizie dużych zbiorów danych K_W04
K_W07
EU2 wymienia i opisuje wybrane technologie i narzędzia stosowane w analizie dużych zbiorów danych K_W04
K_W05
K_W06
K_W07
K_W08
EU3 korzysta z wybranych narzędzi do przetwarzania danych wielkoskalowych w celu realizacji praktycznego zadania z zakresu analizy danych K_U09
K_U10
EU4 potrafi zaplanować, przeprowadzić i dokonać walidacji wyników procesu analizy danych wielkoskalowych dla zadanego problemu K_U01
K_U08
K_U09
K_K01
Symbol efektu uczenia się Sposób weryfikacji efektu uczenia się Forma zajęć na której zachodzi weryfikacja
EU1 sprawdzian zaliczający wykład, pytania teoretyczne podczas weryfikacji wykonanych zadań W, Ps
EU2 sprawdzian zaliczający wykład W
EU3 ocena zadań praktycznych realizowanych w trakcie zajęć Ps
EU4 ocena zadań praktycznych realizowanych w trakcie zajęć Ps
Bilans nakładu pracy studenta (w godzinach) Liczba godz.
Wyliczenie
1 - Udział w wykładach 30
2 - Udział w pracowniach specjalistycznych 45
3 - Udział w konsultacjach 5
4 - Przygotowanie do zajęć pracowni specjalistycznej 30
5 - Przygotowanie prac domowych z pracowni specjalistycznej 30
6 - Przygotowanie do zaliczenia wykładu 10
RAZEM: 150
Wskaźniki ilościowe GODZINY ECTS
Nakład pracy studenta związany z zajęciami wymagającymi bezpośredniego udziału nauczyciela 80
(1)+(2)+(3)
3.2
Nakład pracy studenta związany z zajęciami o charakterze praktycznym 105
(4)+(5)+(2)
4.2
Literatura podstawowa

1. T. White, Hadoop: kompletny przewodnik: analiza i przechowywanie danych, Helion, Gliwice 2016.
2. H. Karau, A. Konwinski, P. Wendell, M. Zaharia, Poznajemy Sparka, PWN, Warszawa 2016.
3. Dokumentacja systemu Apache Hadoop (hadoop.apache.org).
4. Dokumentacja systemu Apache Spark (spark.apache.org).
5. Dokumentacja systemu Apache Hive (spark.apache.org).
6. Dokumentacja systemu Presto (prestodb.github.io).

Literatura uzupełniająca

1. V. Mayer-Schönberger, K. Cukier, Big data: rewolucja, która zmieni nasze myślenie, pracę i życie: efektywna analiza danych, MT Biznes, Warszawa 2017.
2. J Aven, Sams teach yourself Apache Spark in 24 hours, Pearson Education, Indianapolis 2017.
3. G. Harrison, NoSQL, NewSQL i BigData: bazy danych następnej generacji, Helion, Gliwice 2019.

Jednostka realizująca Katedra Oprogramowania Data opracowania programu
Program opracował(a) dr inż. Krzysztof Jurczuk,dr inż. Daniel Reska 2020.04.06