Wydział Informatyki
Kierunek studiów Data Science Poziom i forma studiów pierwszego stopnia inżynierskie stacjonarne
Specjalność / Ścieżka dyplomowania --- Profil kształcenia ogólnoakademicki
Nazwa przedmiotu Hurtownie danych w modelu chmurowym i rozproszonym Kod przedmiotu DS1S6CWH
Rodzaj przedmiotu obowiązkowy
Forma zajęć i liczba godzin W Ć L P Ps T S Semestr 6
30 30 Punkty ECTS 4
Przedmioty wprowadzające Bazy i hurtownie danych (DS1S2BHD),   MLOps w technologiach AI (DS1S3MLO),   Przetwarzanie i wizualizacja danych (DS1S3PWD),  
Cele przedmiotu

Przekazanie wiedzy z zakresu budowy i wykorzystywania nowoczesnych hurtowni danych, koncepcji data lake.
Rozwój praktycznych umiejętności w zakresie projektowania, implementacji i zarządzania rozwiązaniami klasy self-service analytics oraz hurtowni danych w środowisku rozproszonym, w szczególności w środowisku chmurowym.

Odniesienia do frameworka edukacyjnego mikrokompetencji SFIA:
Data Engineering (DENG) - poziom 4: projektowanie, implementacja i utrzymanie zaawansowanych procesów ETL/ELT oraz pipelines danych w środowisku rozproszonym
Data Management (DATM) - poziom 3: zarządzanie danymi, metadanymi i jakością danych w hurtowniach
Data Analytics (DAAN) - poziom 3: implementacja zapytań analitycznych w środowiskach rozproszonych
Storage Management (STMG) - poziom 3: konfiguracja i optymalizacja magazynów danych w chmurze
Solution Architecture (ARCH) - poziom 4: projektowanie architektury rozwiązań self-service analytics i data lake

Treści programowe

Architektury hurtowni, podział obliczeniowy, infrastruktura klastrowa i federacja danych. Efektywne zarządzanie danymi w środowiskach chmurowych i rozproszonych, z uwzględnieniem zasad zrównoważonego rozwoju, w tym aspektów energooszczędności i zrównoważonego przetwarzania.
Technologie chmurowe i rozproszone w kontekście hurtowni danych. Metody przetwarzania danych, techniki zdarzeniowe i batchowe, integracja z narzędziami analitycznymi i uczenia maszynowego. Procesy ETL/ETLm, transformacje i orkiestracja danych w systemach rozproszonych. Zarządzanie hurtowniami danych. Jakość, bezpieczeństwo i zgodność danych. Dobre praktyki zarządzania danymi w organizacji.

Wykład:
1. Różnice między hurtowniami danych oraz bazami danych. Zarys historyczny oraz ewolucja hurtowni danych
2. Omówienie zmieniających się paradygmatów przechowywania i przetwarzania danych analitycznych. Porównanie tradycyjnych hurtowni danych z nowoczesnymi rozwiązaniami
3. Wzorce hurtowni danych. Architektura hurtowni danych; m. in. architektury gwiazdy, schemat płatku śniegu. Techniki podziału elementów obliczeniowych z praktyką utrzymywania danych
4. Wprowadzenie do technologii klastrowych; budowanie infrastruktury współdzielonych między różnymi inicjatywami biznesowymi. Koncepcja widoku i tabel. Federacja danych. Ocena wymagań wydajnościowych i konsumpcji zasobów infrastrukturalnych w nawiązaniu do zasad zrównoważonego rozwoju
5. Technologiczne wprowadzenie do technologii rozproszonych i chmurowych, dostarczenie hurtowni w technologiach Amazon S3, Azure Data Lake, Hadoop (HDFS)
6. Elementy procesowania, techniki zdarzeniowe (Apache Kafka)
7. Elementy procesowania i analityki; techniki zdarzeniowe oraz batchowe. Integracja hurtowni danych z różnymi platformami do analityki. Integracja hurtowni danych z narzędziami do uczenia maszynowego (Tensorflow, PyTorch)
8. Koncepcja i implementacja procesów ETL/ETLm. Budowanie transformacji i orkiestracji w środowiskach rozproszonych. Zwrócenie uwagi na wymagania konsumpcji zasobów w nawiązaniu do zasad zrównoważonego rozwoju
9. Integracja modeli relacyjnych w hurtownię danych; zachowanie ACID dla hurtowni danych. Koncepcja self-service analytics. Demokratyzacja danych w organizacji
10. Role data stewards, data engineers i business analysts. Zarządzanie dostępem i uprawnieniami w modelu self-service
11. Technologie szczególne. Snowflake - architektura, funkcjonalności i przypadki użycia. Google BigQuery - różnice strukturalne; Storage i model zapytań. BigQuery ML. Optymalizacja architektury i zapytań w kontekście zapotrzebowania na zasoby, w nawiązaniu do zasad zrównoważonego rozwoju
12. Connected Sheets i Data Studio. Databricks i Azure Delta Lake - architektura, funkcjonalności i przypadki użycia. Paradygmat data-lake. Optymalizacja architektury i zapytań w kontekście zapotrzebowania na zasoby, w nawiązaniu do zasad zrównoważonego rozwoju
13. Techniki zapewniania integralności i spójności dla hurtowni danych; procesy zapewniania wysokiej jakości dla hurtowni. Zarządzanie metadanymi. Procesy kontroli dostępu, uwierzytelnienia, praktyki zapewniania bezpieczeństwa
14. Zapewnienie zgodności, wymagania regulatora, techniki zapewnienia prywatności i anonimowości w hurtowni danych. Dobre praktyki kategoryzacji
15. Zaliczenie wykładu

Pracownia specjalistyczna:
1. Konfiguracja środowiska wybranej platformy rozproszone (np. Snowflake, BigQuery lub Databricks). Tworzenie kont, ustawienia regionów, konfiguracja magazynów danych i compute resources. Określanie zapotrzebowania na zasoby z uwzględnieniem zasad zrównoważonego rozwoju (4h)
2. Modelowanie danych w wybranej platformie. Projektowanie schematów, tabel i relacji. Optymalizacja modelu danych pod kątem wydajności zapytań. Ładowanie i integracja danych. Implementacja procesów ETL/ELT. Konfiguracja narzędzi ingest. Transformacje danych i quality checks (4h)
3. Implementacja zaawansowanych zapytań analitycznych. Wykorzystanie specyficznych dla platformy funkcji i optymalizacji. Wizualizacja i raportowanie. Integracja z narzędziami BI (Power BI, Tableau, Looker). Tworzenie widoków i raportów interaktywnych użytecznych biznesowo
4. Implementacja zaawansowanych zapytań analitycznych. Wykorzystanie specyficznych dla platformy funkcji i optymalizacji. Optymalizacja zapytań w kontekście zapotrzebowania na zasoby, w nawiązaniu do zasad zrównoważonego rozwoju
5. Implementacja modelu self-service. Definiowanie ról i uprawnień. Tworzenie data products. Zarządzanie metadanymi i słownikami biznesowymi. Optymalizacja wydajności i kosztów. Monitoring i tuning zapytań. Cost management i budgeting. Implementacja best practices dla wybranej platformy (4h)
6. Implementacja modelu self-service. Definiowanie ról i uprawnień. Tworzenie data products. Zarządzanie metadanymi i słownikami biznesowymi. Optymalizacja wydajności i kosztów. Optymalizacja zapytań w kontekście zapotrzebowania na zasoby, w nawiązaniu do zasad zrównoważonego rozwoju
7. Projekt końcowy - implementacja kompleksowego rozwiązania self-service analytics. Integracja wszystkich komponentów. Prezentacja business case i ROI (10h)
8. Prezentacja projektów. Zaliczenie pracowni specjalistycznej

Metody dydaktyczne

wykład konwersatoryjny,   wykład problemowy,   wykład z prezentacją multimedialną,   programowanie z użyciem komputera,  

Forma zaliczenia

Wykład: zaliczenie pisemne z pytaniami testowymi i otwartymi
Pracownia specjalistyczna: ocena programów realizowanych na zajęciach, ocena zadania projektowego

Symbol efektu uczenia się Zakładane efekty uczenia się Odniesienie do kierunkowych efektów uczenia się
EU1 architekturę i funkcjonalności nowoczesnych hurtowni danych DS1_W03
DS1_W04
DS1_W06
DS1_U21
EU2 koncepcję i implementacje self-service analytics DS1_W07
EU3 modele danych i metody ich optymalizacji w środowisku chmurowym oraz ich wpływ na zużycie zasobów i środowisko w kontekście zrównoważonego rozwoju. DS1_W05
DS1_W15
DS1_W19
EU4 zaprojektować i wdrożyć rozwiązanie self-service / data lake w środowisku chmurowym oraz środowisku rozproszonym DS1_W16
DS1_U07
EU5 optymalizować wydajność i koszty chmurowych hurtowni danych stosując zasady zrównoważonego rozwoju DS1_U10
DS1_U15
EU6 wdrażać modele self-service analytics dostosowane do potrzeb biznesowych optymalizując zużycie zasobów i koszty energetyczne DS1_U11
DS1_U15
EU7 identyfikacji problemów, które rozwiązują technologie data-lake DS1_K01
EU8 świadomego wykorzystywania danych w procesach podejmowania decyzji w organizacji, uwzględniając ich wpływ na strategię i efektywność działania DS1_K05
Symbol efektu uczenia się Sposób weryfikacji efektu uczenia się Forma zajęć na której zachodzi weryfikacja
EU1 zaliczenie pisemne W
EU2 zaliczenie pisemne W
EU3 zaliczenie pisemne W
EU4 ocena realizowanych zadań problemowych, ocena projektu Ps
EU5 ocena realizowanych zadań problemowych, ocena projektu Ps
EU6 ocena realizowanych zadań problemowych, ocena projektu Ps
EU7 ocena realizowanych zadań problemowych, ocena projektu Ps
EU8 ocena realizowanych zadań problemowych, ocena projektu Ps
Bilans nakładu pracy studenta (w godzinach) Liczba godz.
Wyliczenie
1 - udziałem w wykładach 30
2 - udziałem w innych formach zajęć 30
3 - indywidualnym wsparciem merytorycznym procesu uczenia się, udziałem w zaliczeniach organizowanych poza planem zajęć 4
4 - przygotowaniem do zaliczenia wykładu 8
5 - przygotowaniem do bieżących zajęć 14
6 - wykonaniem projektu 14
RAZEM: 100
Wskaźniki ilościowe GODZINY ECTS
Nakład pracy studenta związany z zajęciami wymagającymi bezpośredniego udziału nauczyciela 64
(1)+(2)+(3)
2.6
Nakład pracy studenta związany z zajęciami o charakterze praktycznym 58
(2)+(5)+(6)
2.3
Literatura podstawowa

1. J. Serra, Nowoczesne architektury danych. Przewodnik po hurtowni danych, siatce danych oraz Data Fabric i Data Lakehouse, O'Reilly Media, 2024
2. A. Pelikant, Hurtownie danych. Od przetwarzania analitycznego do raportowania, Helion, Gliwice, 2021
3. C. Fehling, Cloud Computing Patterns: Fundamentals to Design, Build, and Manage Cloud Applications, Springer Nature, 2014
4. K. Indrasiri, S. Suhothayan, Design Patterns for Cloud Native Applications: Patterns in Practice Using APIs, Data, Events, and Streams, O'Reilly Media, 2021

Literatura uzupełniająca

1. R. Kimball, M. Ross, The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling, Wiley, 2021
2. https://cloud.google.com/bigquery/docs
3. https://docs.snowflake.com
4. https://kafka.apache.org/documentation/
5 . ttps://learn.microsoft.com/en-us/azure/data-lake/

Jednostka realizująca Wydział Informatyki Data opracowania programu
Program opracował(a) dr hab. inż. Agnieszka Drużdżel,dr inż. Jerzy Krawczuk,dr inż. Daniel Reska 2025.03.03