Karta Przedmiotu

Politechnika Białostocka Wydział Informatyki
Kierunek studiów Data Science Poziom i forma
studiów
pierwszego stopnia
stacjonarne
Grupa przedmiotów /
specjalność
Profil kształcenia ogólnoakademicki
Nazwa przedmiotu Hurtownie danych w modelu chmurowym i rozproszonym Kod przedmiotu DS1S6CWH
Rodzaj zajęć obowiązkowy
Formy zajęć i liczba godzin W Ć L P Ps T S Semestr 6
30 30 Punkty ECTS 4
Program obowiązuje od 2025/2026
Przedmioty wprowadzające Bazy i hurtownie danych (DS1S2BHD),   MLOps w technologiach AI (DS1S3MLO),   Przetwarzanie i wizualizacja danych (DS1S3PWD),  
Cele przedmiotu Przekazanie wiedzy z zakresu budowy i wykorzystywania nowoczesnych hurtowni danych, koncepcji data lake.
Rozwój praktycznych umiejętności w zakresie projektowania, implementacji i zarządzania rozwiązaniami klasy self-service analytics oraz hurtowni danych w środowisku rozproszonym, w szczególności w środowisku chmurowym.

Odniesienia do frameworka edukacyjnego mikrokompetencji SFIA:
Data Engineering (DENG) - poziom 4: projektowanie, implementacja i utrzymanie zaawansowanych procesów ETL/ELT oraz pipelines danych w środowisku rozproszonym
Data Management (DATM) - poziom 3: zarządzanie danymi, metadanymi i jakością danych w hurtowniach
Data Analytics (DAAN) - poziom 3: implementacja zapytań analitycznych w środowiskach rozproszonych
Storage Management (STMG) - poziom 3: konfiguracja i optymalizacja magazynów danych w chmurze
Solution Architecture (ARCH) - poziom 4: projektowanie architektury rozwiązań self-service analytics i data lake
Ramowe treści programowe Architektury hurtowni, podział obliczeniowy, infrastruktura klastrowa i federacja danych. Efektywne zarządzanie danymi w środowiskach chmurowych i rozproszonych, z uwzględnieniem zasad zrównoważonego rozwoju, w tym aspektów energooszczędności i zrównoważonego przetwarzania.
Technologie chmurowe i rozproszone w kontekście hurtowni danych. Metody przetwarzania danych, techniki zdarzeniowe i batchowe, integracja z narzędziami analitycznymi i uczenia maszynowego. Procesy ETL/ETLm, transformacje i orkiestracja danych w systemach rozproszonych. Zarządzanie hurtowniami danych. Jakość, bezpieczeństwo i zgodność danych. Dobre praktyki zarządzania danymi w organizacji.
Inne informacje o przedmiocie treści przedmiotu odwołują się do zasad zrównoważonego rozwoju
przedmiot ma związek z prowadzoną na Uczelni działalnością naukową
Wyliczenie: Nakład pracy studenta związany z: Godzin
ogółem
W tym
kontaktowych
W tym
praktycznych
udziałem w wykładach 30 30
udziałem w innych formach zajęć 30 30 30
indywidualnym wsparciem merytorycznym procesu uczenia się, udziałem w zaliczeniach organizowanych poza planem zajęć 4 4
przygotowaniem do zaliczenia wykładu 8
przygotowaniem do bieżących zajęć 14 14
wykonaniem projektu 14 14
Razem godzin: 100 64 58
Razem punktów ECTS: 4 2.6 2.3
Zakładane kierunkowe efekty uczenia się Wiedza Umiejętności Kompetencje
społeczne
DS1_W03 DS1_U07 DS1_K01
DS1_W04 DS1_U10 DS1_K05
DS1_W05 DS1_U11
DS1_W06 DS1_U15
DS1_W07 DS1_U16
DS1_W15
DS1_W19
DS1_W21
Cele i treści ramowe sformułował(a) dr inż. Andrzej Chmielewski, mgr inż. Kamil Zabielski Data: 29/05/2025
Realizacja w roku akademickim 2027/2028
 
Treści programowe
Wykład
1. Różnice między hurtowniami danych oraz bazami danych. Zarys historyczny oraz ewolucja hurtowni danych
2. Omówienie zmieniających się paradygmatów przechowywania i przetwarzania danych analitycznych. Porównanie tradycyjnych hurtowni danych z nowoczesnymi rozwiązaniami
3. Wzorce hurtowni danych. Architektura hurtowni danych; m. in. architektury gwiazdy, schemat płatku śniegu. Techniki podziału elementów obliczeniowych z praktyką utrzymywania danych
4. Wprowadzenie do technologii klastrowych; budowanie infrastruktury współdzielonych między różnymi inicjatywami biznesowymi. Koncepcja widoku i tabel. Federacja danych. Ocena wymagań wydajnościowych i konsumpcji zasobów infrastrukturalnych w nawiązaniu do zasad zrównoważonego rozwoju
5. Technologiczne wprowadzenie do technologii rozproszonych i chmurowych, dostarczenie hurtowni w technologiach Amazon S3, Azure Data Lake, Hadoop (HDFS)
6. Elementy procesowania, techniki zdarzeniowe (Apache Kafka)
7. Elementy procesowania i analityki; techniki zdarzeniowe oraz batchowe. Integracja hurtowni danych z różnymi platformami do analityki. Integracja hurtowni danych z narzędziami do uczenia maszynowego (Tensorflow, PyTorch)
8. Koncepcja i implementacja procesów ETL/ETLm. Budowanie transformacji i orkiestracji w środowiskach rozproszonych. Zwrócenie uwagi na wymagania konsumpcji zasobów w nawiązaniu do zasad zrównoważonego rozwoju
9. Integracja modeli relacyjnych w hurtownię danych; zachowanie ACID dla hurtowni danych. Koncepcja self-service analytics. Demokratyzacja danych w organizacji
10. Role data stewards, data engineers i business analysts. Zarządzanie dostępem i uprawnieniami w modelu self-service
11. Technologie szczególne. Snowflake - architektura, funkcjonalności i przypadki użycia. Google BigQuery - różnice strukturalne; Storage i model zapytań. BigQuery ML. Optymalizacja architektury i zapytań w kontekście zapotrzebowania na zasoby, w nawiązaniu do zasad zrównoważonego rozwoju
12. Connected Sheets i Data Studio. Databricks i Azure Delta Lake - architektura, funkcjonalności i przypadki użycia. Paradygmat data-lake. Optymalizacja architektury i zapytań w kontekście zapotrzebowania na zasoby, w nawiązaniu do zasad zrównoważonego rozwoju
13. Techniki zapewniania integralności i spójności dla hurtowni danych; procesy zapewniania wysokiej jakości dla hurtowni. Zarządzanie metadanymi. Procesy kontroli dostępu, uwierzytelnienia, praktyki zapewniania bezpieczeństwa
14. Zapewnienie zgodności, wymagania regulatora, techniki zapewnienia prywatności i anonimowości w hurtowni danych. Dobre praktyki kategoryzacji
15. Zaliczenie wykładu
Pracownia specjalistyczna
1. Konfiguracja środowiska wybranej platformy rozproszone (np. Snowflake, BigQuery lub Databricks). Tworzenie kont, ustawienia regionów, konfiguracja magazynów danych i compute resources. Określanie zapotrzebowania na zasoby z uwzględnieniem zasad zrównoważonego rozwoju (4h)
2. Modelowanie danych w wybranej platformie. Projektowanie schematów, tabel i relacji. Optymalizacja modelu danych pod kątem wydajności zapytań. Ładowanie i integracja danych. Implementacja procesów ETL/ELT. Konfiguracja narzędzi ingest. Transformacje danych i quality checks (4h)
3. Implementacja zaawansowanych zapytań analitycznych. Wykorzystanie specyficznych dla platformy funkcji i optymalizacji. Wizualizacja i raportowanie. Integracja z narzędziami BI (Power BI, Tableau, Looker). Tworzenie widoków i raportów interaktywnych użytecznych biznesowo
4. Implementacja zaawansowanych zapytań analitycznych. Wykorzystanie specyficznych dla platformy funkcji i optymalizacji. Optymalizacja zapytań w kontekście zapotrzebowania na zasoby, w nawiązaniu do zasad zrównoważonego rozwoju
5. Implementacja modelu self-service. Definiowanie ról i uprawnień. Tworzenie data products. Zarządzanie metadanymi i słownikami biznesowymi. Optymalizacja wydajności i kosztów. Monitoring i tuning zapytań. Cost management i budgeting. Implementacja best practices dla wybranej platformy (4h)
6. Implementacja modelu self-service. Definiowanie ról i uprawnień. Tworzenie data products. Zarządzanie metadanymi i słownikami biznesowymi. Optymalizacja wydajności i kosztów. Optymalizacja zapytań w kontekście zapotrzebowania na zasoby, w nawiązaniu do zasad zrównoważonego rozwoju
7. Projekt końcowy - implementacja kompleksowego rozwiązania self-service analytics. Integracja wszystkich komponentów. Prezentacja business case i ROI (10h)
8. Prezentacja projektów. Zaliczenie pracowni specjalistycznej
Metody dydaktyczne
(realizacja stacjonarna)
W wykład problemowy; wykład informacyjny; wykład z prezentacją multimedialną
Ps programowanie z użyciem komputera
Metody dydaktyczne
(realizacja zdalna)
W wykład problemowy; wykład informacyjny; wykład z prezentacją multimedialną
-
Forma zaliczenia
W zaliczenie pisemne z pytaniami testowymi i otwartymi
Ps ocena programów realizowanych na zajęciach, ocena zadania projektowego
Warunki zaliczenia
W Uzyskanie min. 30% z każdego E1-E3, a po spełnieniu tego warunku ostateczna ocena wynika z sumy uzyskanych punktów.
Kryteria oceny:
[ 0 – 50]% punktów – 2.0
(50 – 60]% punktów – 3.0
(60 – 70]% punktów – 3.5
(70 – 80]% punktów – 4.0
(80 – 90]% punktów – 4.5
(90 – 100]% punktów – 5.0
Ps Uzyskanie min. 30% z każdego E4-E8, a po spełnieniu tego warunku ostateczna ocena wynika z sumy uzyskanych punktów.
Kryteria oceny:
[ 0 – 50]% punktów – 2.0
(50 – 60]% punktów – 3.0
(60 – 70]% punktów – 3.5
(70 – 80]% punktów – 4.0
(80 – 90]% punktów – 4.5
(90 – 100]% punktów – 5.0
Symbol efektu Zakładane efekty uczenia się Odniesienie do efektów uczenia się zdefiniowanych dla kierunku studiów
Wiedza Umiejętności Kompetencje
społeczne
Wiedza: student zna i rozumie
E1 architekturę i funkcjonalności nowoczesnych hurtowni danych
E2 koncepcję i implementacje self-service analytics
E3 modele danych i metody ich optymalizacji w środowisku chmurowym oraz ich wpływ na zużycie zasobów i środowisko w kontekście zrównoważonego rozwoju.
Umiejętności: student potrafi
E4 zaprojektować i wdrożyć rozwiązanie self-service / data lake w środowisku chmurowym oraz środowisku rozproszonym
E5 optymalizować wydajność i koszty chmurowych hurtowni danych stosując zasady zrównoważonego rozwoju
E6 wdrażać modele self-service analytics dostosowane do potrzeb biznesowych optymalizując zużycie zasobów i koszty energetyczne
Kompetencje społeczne: student jest gotów do
E7 identyfikacji problemów, które rozwiązują technologie data-lake
E8 świadomego wykorzystywania danych w procesach podejmowania decyzji w organizacji, uwzględniając ich wpływ na strategię i efektywność działania
Symbol efektu Sposób weryfikacji efektu uczenia się Forma zajęć na której zachodzi weryfikacja
E1 zaliczenie pisemne W
E2 zaliczenie pisemne W
E3 zaliczenie pisemne W
E4 ocena realizowanych zadań problemowych, ocena projektu Ps
E5 ocena realizowanych zadań problemowych, ocena projektu Ps
E6 ocena realizowanych zadań problemowych, ocena projektu Ps
E7 ocena realizowanych zadań problemowych, ocena projektu Ps
E8 ocena realizowanych zadań problemowych, ocena projektu Ps
Literatura podstawowa
1. J. Serra, Nowoczesne architektury danych. Przewodnik po hurtowni danych, siatce danych oraz Data Fabric i Data Lakehouse, O'Reilly Media, 2024
2. A. Pelikant, Hurtownie danych. Od przetwarzania analitycznego do raportowania, Helion, Gliwice, 2021
3. C. Fehling, Cloud Computing Patterns: Fundamentals to Design, Build, and Manage Cloud Applications, Springer Nature, 2014
4. K. Indrasiri, S. Suhothayan, Design Patterns for Cloud Native Applications: Patterns in Practice Using APIs, Data, Events, and Streams, O'Reilly Media, 2021
Literatura uzupełniająca
1. R. Kimball, M. Ross, The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling, Wiley, 2021
2. https://cloud.google.com/bigquery/docs
3. https://docs.snowflake.com
4. https://kafka.apache.org/documentation/
5. https://learn.microsoft.com/en-us/azure/data-lake/
Koordynator przedmiotu: dr hab. inż. Agnieszka Drużdżel, dr inż. Jerzy Krawczuk, dr inż. Daniel Reska Data: 03/03/2025