Karta Przedmiotu
| Politechnika Białostocka | Wydział Informatyki | ||||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Kierunek studiów | Data Science |
Poziom i forma studiów |
pierwszego stopnia stacjonarne |
||||||||||||||||||||||||
| Grupa przedmiotów / specjalność |
Profil kształcenia | ogólnoakademicki | |||||||||||||||||||||||||
| Nazwa przedmiotu | Hurtownie danych w modelu chmurowym i rozproszonym | Kod przedmiotu | DS1S6CWH | ||||||||||||||||||||||||
| Rodzaj zajęć | obowiązkowy | ||||||||||||||||||||||||||
| Formy zajęć i liczba godzin | W | Ć | L | P | Ps | T | S | Semestr | 6 | ||||||||||||||||||
| 30 | 30 | Punkty ECTS | 4 | ||||||||||||||||||||||||
| Program obowiązuje od | 2025/2026 | ||||||||||||||||||||||||||
| Przedmioty wprowadzające | Bazy i hurtownie danych (DS1S2BHD), MLOps w technologiach AI (DS1S3MLO), Przetwarzanie i wizualizacja danych (DS1S3PWD), | ||||||||||||||||||||||||||
| Cele przedmiotu |
Przekazanie wiedzy z zakresu budowy i wykorzystywania nowoczesnych hurtowni danych, koncepcji data lake. Rozwój praktycznych umiejętności w zakresie projektowania, implementacji i zarządzania rozwiązaniami klasy self-service analytics oraz hurtowni danych w środowisku rozproszonym, w szczególności w środowisku chmurowym. Odniesienia do frameworka edukacyjnego mikrokompetencji SFIA: Data Engineering (DENG) - poziom 4: projektowanie, implementacja i utrzymanie zaawansowanych procesów ETL/ELT oraz pipelines danych w środowisku rozproszonym Data Management (DATM) - poziom 3: zarządzanie danymi, metadanymi i jakością danych w hurtowniach Data Analytics (DAAN) - poziom 3: implementacja zapytań analitycznych w środowiskach rozproszonych Storage Management (STMG) - poziom 3: konfiguracja i optymalizacja magazynów danych w chmurze Solution Architecture (ARCH) - poziom 4: projektowanie architektury rozwiązań self-service analytics i data lake |
||||||||||||||||||||||||||
| Ramowe treści programowe |
Architektury hurtowni, podział obliczeniowy, infrastruktura klastrowa i federacja danych. Efektywne zarządzanie danymi w środowiskach chmurowych i rozproszonych, z uwzględnieniem zasad zrównoważonego rozwoju, w tym aspektów energooszczędności i zrównoważonego przetwarzania. Technologie chmurowe i rozproszone w kontekście hurtowni danych. Metody przetwarzania danych, techniki zdarzeniowe i batchowe, integracja z narzędziami analitycznymi i uczenia maszynowego. Procesy ETL/ETLm, transformacje i orkiestracja danych w systemach rozproszonych. Zarządzanie hurtowniami danych. Jakość, bezpieczeństwo i zgodność danych. Dobre praktyki zarządzania danymi w organizacji. |
||||||||||||||||||||||||||
| Inne informacje o przedmiocie | treści przedmiotu odwołują się do zasad zrównoważonego rozwoju | ||||||||||||||||||||||||||
| przedmiot ma związek z prowadzoną na Uczelni działalnością naukową | |||||||||||||||||||||||||||
| Wyliczenie: | Nakład pracy studenta związany z: | Godzin ogółem |
W tym kontaktowych |
W tym praktycznych |
|||||||||||||||||||||||
| udziałem w wykładach | 30 | 30 | |||||||||||||||||||||||||
| udziałem w innych formach zajęć | 30 | 30 | 30 | ||||||||||||||||||||||||
| indywidualnym wsparciem merytorycznym procesu uczenia się, udziałem w zaliczeniach organizowanych poza planem zajęć | 4 | 4 | |||||||||||||||||||||||||
| przygotowaniem do zaliczenia wykładu | 8 | ||||||||||||||||||||||||||
| przygotowaniem do bieżących zajęć | 14 | 14 | |||||||||||||||||||||||||
| wykonaniem projektu | 14 | 14 | |||||||||||||||||||||||||
| Razem godzin: | 100 | 64 | 58 | ||||||||||||||||||||||||
| Razem punktów ECTS: | 4 | 2.6 | 2.3 | ||||||||||||||||||||||||
| Zakładane kierunkowe efekty uczenia się | Wiedza | Umiejętności | Kompetencje społeczne |
||||||||||||||||||||||||
| DS1_W03 | DS1_U07 | DS1_K01 | |||||||||||||||||||||||||
| DS1_W04 | DS1_U10 | DS1_K05 | |||||||||||||||||||||||||
| DS1_W05 | DS1_U11 | ||||||||||||||||||||||||||
| DS1_W06 | DS1_U15 | ||||||||||||||||||||||||||
| DS1_W07 | DS1_U16 | ||||||||||||||||||||||||||
| DS1_W15 | |||||||||||||||||||||||||||
| DS1_W19 | |||||||||||||||||||||||||||
| DS1_W21 | |||||||||||||||||||||||||||
| Cele i treści ramowe sformułował(a) | dr inż. Andrzej Chmielewski, mgr inż. Kamil Zabielski | Data: | 29/05/2025 | ||||||||||||||||||||||||
| Realizacja w roku akademickim | 2027/2028 | ||||||||||||||||||||||||||
| Treści programowe | |||||||||||||||||||||||||||
| Wykład | |||||||||||||||||||||||||||
| 1. | Różnice między hurtowniami danych oraz bazami danych. Zarys historyczny oraz ewolucja hurtowni danych | ||||||||||||||||||||||||||
| 2. | Omówienie zmieniających się paradygmatów przechowywania i przetwarzania danych analitycznych. Porównanie tradycyjnych hurtowni danych z nowoczesnymi rozwiązaniami | ||||||||||||||||||||||||||
| 3. | Wzorce hurtowni danych. Architektura hurtowni danych; m. in. architektury gwiazdy, schemat płatku śniegu. Techniki podziału elementów obliczeniowych z praktyką utrzymywania danych | ||||||||||||||||||||||||||
| 4. | Wprowadzenie do technologii klastrowych; budowanie infrastruktury współdzielonych między różnymi inicjatywami biznesowymi. Koncepcja widoku i tabel. Federacja danych. Ocena wymagań wydajnościowych i konsumpcji zasobów infrastrukturalnych w nawiązaniu do zasad zrównoważonego rozwoju | ||||||||||||||||||||||||||
| 5. | Technologiczne wprowadzenie do technologii rozproszonych i chmurowych, dostarczenie hurtowni w technologiach Amazon S3, Azure Data Lake, Hadoop (HDFS) | ||||||||||||||||||||||||||
| 6. | Elementy procesowania, techniki zdarzeniowe (Apache Kafka) | ||||||||||||||||||||||||||
| 7. | Elementy procesowania i analityki; techniki zdarzeniowe oraz batchowe. Integracja hurtowni danych z różnymi platformami do analityki. Integracja hurtowni danych z narzędziami do uczenia maszynowego (Tensorflow, PyTorch) | ||||||||||||||||||||||||||
| 8. | Koncepcja i implementacja procesów ETL/ETLm. Budowanie transformacji i orkiestracji w środowiskach rozproszonych. Zwrócenie uwagi na wymagania konsumpcji zasobów w nawiązaniu do zasad zrównoważonego rozwoju | ||||||||||||||||||||||||||
| 9. | Integracja modeli relacyjnych w hurtownię danych; zachowanie ACID dla hurtowni danych. Koncepcja self-service analytics. Demokratyzacja danych w organizacji | ||||||||||||||||||||||||||
| 10. | Role data stewards, data engineers i business analysts. Zarządzanie dostępem i uprawnieniami w modelu self-service | ||||||||||||||||||||||||||
| 11. | Technologie szczególne. Snowflake - architektura, funkcjonalności i przypadki użycia. Google BigQuery - różnice strukturalne; Storage i model zapytań. BigQuery ML. Optymalizacja architektury i zapytań w kontekście zapotrzebowania na zasoby, w nawiązaniu do zasad zrównoważonego rozwoju | ||||||||||||||||||||||||||
| 12. | Connected Sheets i Data Studio. Databricks i Azure Delta Lake - architektura, funkcjonalności i przypadki użycia. Paradygmat data-lake. Optymalizacja architektury i zapytań w kontekście zapotrzebowania na zasoby, w nawiązaniu do zasad zrównoważonego rozwoju | ||||||||||||||||||||||||||
| 13. | Techniki zapewniania integralności i spójności dla hurtowni danych; procesy zapewniania wysokiej jakości dla hurtowni. Zarządzanie metadanymi. Procesy kontroli dostępu, uwierzytelnienia, praktyki zapewniania bezpieczeństwa | ||||||||||||||||||||||||||
| 14. | Zapewnienie zgodności, wymagania regulatora, techniki zapewnienia prywatności i anonimowości w hurtowni danych. Dobre praktyki kategoryzacji | ||||||||||||||||||||||||||
| 15. | Zaliczenie wykładu | ||||||||||||||||||||||||||
| Pracownia specjalistyczna | |||||||||||||||||||||||||||
| 1. | Konfiguracja środowiska wybranej platformy rozproszone (np. Snowflake, BigQuery lub Databricks). Tworzenie kont, ustawienia regionów, konfiguracja magazynów danych i compute resources. Określanie zapotrzebowania na zasoby z uwzględnieniem zasad zrównoważonego rozwoju (4h) | ||||||||||||||||||||||||||
| 2. | Modelowanie danych w wybranej platformie. Projektowanie schematów, tabel i relacji. Optymalizacja modelu danych pod kątem wydajności zapytań. Ładowanie i integracja danych. Implementacja procesów ETL/ELT. Konfiguracja narzędzi ingest. Transformacje danych i quality checks (4h) | ||||||||||||||||||||||||||
| 3. | Implementacja zaawansowanych zapytań analitycznych. Wykorzystanie specyficznych dla platformy funkcji i optymalizacji. Wizualizacja i raportowanie. Integracja z narzędziami BI (Power BI, Tableau, Looker). Tworzenie widoków i raportów interaktywnych użytecznych biznesowo | ||||||||||||||||||||||||||
| 4. | Implementacja zaawansowanych zapytań analitycznych. Wykorzystanie specyficznych dla platformy funkcji i optymalizacji. Optymalizacja zapytań w kontekście zapotrzebowania na zasoby, w nawiązaniu do zasad zrównoważonego rozwoju | ||||||||||||||||||||||||||
| 5. | Implementacja modelu self-service. Definiowanie ról i uprawnień. Tworzenie data products. Zarządzanie metadanymi i słownikami biznesowymi. Optymalizacja wydajności i kosztów. Monitoring i tuning zapytań. Cost management i budgeting. Implementacja best practices dla wybranej platformy (4h) | ||||||||||||||||||||||||||
| 6. | Implementacja modelu self-service. Definiowanie ról i uprawnień. Tworzenie data products. Zarządzanie metadanymi i słownikami biznesowymi. Optymalizacja wydajności i kosztów. Optymalizacja zapytań w kontekście zapotrzebowania na zasoby, w nawiązaniu do zasad zrównoważonego rozwoju | ||||||||||||||||||||||||||
| 7. | Projekt końcowy - implementacja kompleksowego rozwiązania self-service analytics. Integracja wszystkich komponentów. Prezentacja business case i ROI (10h) | ||||||||||||||||||||||||||
| 8. | Prezentacja projektów. Zaliczenie pracowni specjalistycznej | ||||||||||||||||||||||||||
| Metody dydaktyczne (realizacja stacjonarna) |
|||||||||||||||||||||||||||
| W | wykład problemowy; wykład informacyjny; wykład z prezentacją multimedialną | ||||||||||||||||||||||||||
| Ps | programowanie z użyciem komputera | ||||||||||||||||||||||||||
| Metody dydaktyczne (realizacja zdalna) |
|||||||||||||||||||||||||||
| W | wykład problemowy; wykład informacyjny; wykład z prezentacją multimedialną | ||||||||||||||||||||||||||
| - | |||||||||||||||||||||||||||
| Forma zaliczenia | |||||||||||||||||||||||||||
| W | zaliczenie pisemne z pytaniami testowymi i otwartymi | ||||||||||||||||||||||||||
| Ps | ocena programów realizowanych na zajęciach, ocena zadania projektowego | ||||||||||||||||||||||||||
| Warunki zaliczenia | |||||||||||||||||||||||||||
| W | Uzyskanie min. 30% z każdego E1-E3, a po spełnieniu tego warunku ostateczna ocena wynika z sumy uzyskanych punktów. Kryteria oceny: [ 0 – 50]% punktów – 2.0 (50 – 60]% punktów – 3.0 (60 – 70]% punktów – 3.5 (70 – 80]% punktów – 4.0 (80 – 90]% punktów – 4.5 (90 – 100]% punktów – 5.0 |
||||||||||||||||||||||||||
| Ps | Uzyskanie min. 30% z każdego E4-E8, a po spełnieniu tego warunku ostateczna ocena wynika z sumy uzyskanych punktów. Kryteria oceny: [ 0 – 50]% punktów – 2.0 (50 – 60]% punktów – 3.0 (60 – 70]% punktów – 3.5 (70 – 80]% punktów – 4.0 (80 – 90]% punktów – 4.5 (90 – 100]% punktów – 5.0 |
||||||||||||||||||||||||||
| Symbol efektu | Zakładane efekty uczenia się | Odniesienie do efektów uczenia się zdefiniowanych dla kierunku studiów | |||||||||||||||||||||||||
| Wiedza | Umiejętności | Kompetencje społeczne |
|||||||||||||||||||||||||
| Wiedza: student zna i rozumie | |||||||||||||||||||||||||||
| E1 | architekturę i funkcjonalności nowoczesnych hurtowni danych | ||||||||||||||||||||||||||
| E2 | koncepcję i implementacje self-service analytics | ||||||||||||||||||||||||||
| E3 | modele danych i metody ich optymalizacji w środowisku chmurowym oraz ich wpływ na zużycie zasobów i środowisko w kontekście zrównoważonego rozwoju. | ||||||||||||||||||||||||||
| Umiejętności: student potrafi | |||||||||||||||||||||||||||
| E4 | zaprojektować i wdrożyć rozwiązanie self-service / data lake w środowisku chmurowym oraz środowisku rozproszonym | ||||||||||||||||||||||||||
| E5 | optymalizować wydajność i koszty chmurowych hurtowni danych stosując zasady zrównoważonego rozwoju | ||||||||||||||||||||||||||
| E6 | wdrażać modele self-service analytics dostosowane do potrzeb biznesowych optymalizując zużycie zasobów i koszty energetyczne | ||||||||||||||||||||||||||
| Kompetencje społeczne: student jest gotów do | |||||||||||||||||||||||||||
| E7 | identyfikacji problemów, które rozwiązują technologie data-lake | ||||||||||||||||||||||||||
| E8 | świadomego wykorzystywania danych w procesach podejmowania decyzji w organizacji, uwzględniając ich wpływ na strategię i efektywność działania | ||||||||||||||||||||||||||
| Symbol efektu | Sposób weryfikacji efektu uczenia się | Forma zajęć na której zachodzi weryfikacja | |||||||||||||||||||||||||
| E1 | zaliczenie pisemne | W | |||||||||||||||||||||||||
| E2 | zaliczenie pisemne | W | |||||||||||||||||||||||||
| E3 | zaliczenie pisemne | W | |||||||||||||||||||||||||
| E4 | ocena realizowanych zadań problemowych, ocena projektu | Ps | |||||||||||||||||||||||||
| E5 | ocena realizowanych zadań problemowych, ocena projektu | Ps | |||||||||||||||||||||||||
| E6 | ocena realizowanych zadań problemowych, ocena projektu | Ps | |||||||||||||||||||||||||
| E7 | ocena realizowanych zadań problemowych, ocena projektu | Ps | |||||||||||||||||||||||||
| E8 | ocena realizowanych zadań problemowych, ocena projektu | Ps | |||||||||||||||||||||||||
| Literatura podstawowa | |||||||||||||||||||||||||||
| 1. | J. Serra, Nowoczesne architektury danych. Przewodnik po hurtowni danych, siatce danych oraz Data Fabric i Data Lakehouse, O'Reilly Media, 2024 | ||||||||||||||||||||||||||
| 2. | A. Pelikant, Hurtownie danych. Od przetwarzania analitycznego do raportowania, Helion, Gliwice, 2021 | ||||||||||||||||||||||||||
| 3. | C. Fehling, Cloud Computing Patterns: Fundamentals to Design, Build, and Manage Cloud Applications, Springer Nature, 2014 | ||||||||||||||||||||||||||
| 4. | K. Indrasiri, S. Suhothayan, Design Patterns for Cloud Native Applications: Patterns in Practice Using APIs, Data, Events, and Streams, O'Reilly Media, 2021 | ||||||||||||||||||||||||||
| Literatura uzupełniająca | |||||||||||||||||||||||||||
| 1. | R. Kimball, M. Ross, The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling, Wiley, 2021 | ||||||||||||||||||||||||||
| 2. | https://cloud.google.com/bigquery/docs | ||||||||||||||||||||||||||
| 3. | https://docs.snowflake.com | ||||||||||||||||||||||||||
| 4. | https://kafka.apache.org/documentation/ | ||||||||||||||||||||||||||
| 5. | https://learn.microsoft.com/en-us/azure/data-lake/ | ||||||||||||||||||||||||||
| Koordynator przedmiotu: | dr hab. inż. Agnieszka Drużdżel, dr inż. Jerzy Krawczuk, dr inż. Daniel Reska | Data: | 03/03/2025 | ||||||||||||||||||||||||