Wierk - Wydział Informatyki, Elektroniczne Ramy Kwalifikacji

Wydział Informatyki
Kierunek studiów	Matematyka Stosowana							Poziom i forma studiów	drugiego stopnia stacjonarne
Specjalność / Ścieżka dyplomowania	Analityka Danych i Modelowanie Matematyczne							Profil kształcenia	praktyczny
Nazwa przedmiotu	Analiza dużych zbiorów danych							Kod przedmiotu	MAT2ADZ
								Rodzaj przedmiotu	obowiązkowy
Forma zajęć i liczba godzin	W	Ć	L	P	Ps	T	S	Semestr	3
	30				45			Punkty ECTS	6
Przedmioty wprowadzające	Wybrane techniki programistyczne (MAT2WTP),
Cele przedmiotu	Zapoznanie studentów ze specyfiką analizy dużych zbiorów danych (Big Data), ze szczególnym uwzględnieniem technologii z ekosystemu Hadoop. Nauczenie studentów praktycznego stosowania wybranych narzędzi i technologii do analizy dużych zbiorów danych.
Treści programowe	Wykład: 1. Specyfika i problemy w analizie dużych zbiorów danych, historia Big Data, przegląd głównych elementów ekosystemu Hadoop. 2. Składowanie danych: rozproszone systemy plików (HDFS), bazy NoSQL, hurtownie danych wielkoskalowych (Apache Hive). 3. Modele obliczeniowe oraz metody przetwarzania i analizy Big Data: model MapReduce, przetwarzania danych w pamięci (Apache Spark), przetwarzanie strumieniowe (Apache Kafka, Spark Streaming), SQL-On-Hadoop (Hive, Presto, Spark SQL). 4. Wybrane biblioteki i narzędzia uczenia maszynowego (Spark MLlib) oraz narzędzia do interaktywnej analizy danych (Apache Zeppelin). 5. Prezentacja praktycznych przykładów zastosowania poznanych narzędzi w analizie dużych zbiorów danych. Pracownia specjalistyczna: 1. Zapoznanie z narzędziami: Apache Hadoop, Apache Spark, Apache Hive, Presto, Apache Zeppelin. 2. Analiza syntetycznych i rzeczywistych danych z wykorzystaniem poznanych narzędzi.
Metody dydaktyczne	symulacja, metoda projektów, dyskusja związana z wykładem, klasyczna metoda problemowa, wykład problemowy, wykład informacyjny,
Forma zaliczenia	Wykład: pisemny sprawdzian z wiedzy teoretycznej. Pracownia specjalistyczna: ocena zadań praktycznych realizowanych w trakcie zajęć.
Symbol efektu uczenia się	Zakładane efekty uczenia się								Odniesienie do kierunkowych efektów uczenia się
EU1	wymienia i opisuje modele programistyczne i metody przetwarzania stosowane w analizie dużych zbiorów danych								K_W04 K_W07
EU2	wymienia i opisuje wybrane technologie i narzędzia stosowane w analizie dużych zbiorów danych								K_W04 K_W05 K_W06 K_W07 K_W08
EU3	korzysta z wybranych narzędzi do przetwarzania danych wielkoskalowych w celu realizacji praktycznego zadania z zakresu analizy danych								K_U09 K_U10
EU4	potrafi zaplanować, przeprowadzić i dokonać walidacji wyników procesu analizy danych wielkoskalowych dla zadanego problemu								K_U01 K_U08 K_U09 K_K01
Symbol efektu uczenia się	Sposób weryfikacji efektu uczenia się								Forma zajęć na której zachodzi weryfikacja
EU1	sprawdzian zaliczający wykład, pytania teoretyczne podczas weryfikacji wykonanych zadań								W, Ps
EU2	sprawdzian zaliczający wykład								W
EU3	ocena zadań praktycznych realizowanych w trakcie zajęć								Ps
EU4	ocena zadań praktycznych realizowanych w trakcie zajęć								Ps
Bilans nakładu pracy studenta (w godzinach)									Liczba godz.
Wyliczenie
	1 - Udział w wykładach								30
	2 - Udział w pracowniach specjalistycznych								45
	3 - Udział w konsultacjach								5
	4 - Przygotowanie do zajęć pracowni specjalistycznej								30
	5 - Przygotowanie prac domowych z pracowni specjalistycznej								30
	6 - Przygotowanie do zaliczenia wykładu								10
RAZEM:									150
Wskaźniki ilościowe									GODZINY	ECTS
Nakład pracy studenta związany z zajęciami wymagającymi bezpośredniego udziału nauczyciela									80 (1)+(2)+(3)	3.2
Nakład pracy studenta związany z zajęciami o charakterze praktycznym									105 (4)+(5)+(2)	4.2
Literatura podstawowa	1. T. White, Hadoop: kompletny przewodnik: analiza i przechowywanie danych, Helion, Gliwice 2016. 2. H. Karau, A. Konwinski, P. Wendell, M. Zaharia, Poznajemy Sparka, PWN, Warszawa 2016. 3. Dokumentacja systemu Apache Hadoop (hadoop.apache.org). 4. Dokumentacja systemu Apache Spark (spark.apache.org). 5. Dokumentacja systemu Apache Hive (spark.apache.org). 6. Dokumentacja systemu Presto (prestodb.github.io).
Literatura uzupełniająca	1. V. Mayer-Schönberger, K. Cukier, Big data: rewolucja, która zmieni nasze myślenie, pracę i życie: efektywna analiza danych, MT Biznes, Warszawa 2017. 2. J Aven, Sams teach yourself Apache Spark in 24 hours, Pearson Education, Indianapolis 2017. 3. G. Harrison, NoSQL, NewSQL i BigData: bazy danych następnej generacji, Helion, Gliwice 2019.
Jednostka realizująca	Katedra Oprogramowania								Data opracowania programu
Program opracował(a)	dr inż. Krzysztof Jurczuk,dr inż. Daniel Reska								2020.04.06