Karta Przedmiotu

Politechnika Białostocka Wydział Informatyki
Kierunek studiów Data Science Poziom i forma
studiów
pierwszego stopnia
stacjonarne
Grupa przedmiotów /
specjalność
Profil kształcenia ogólnoakademicki
Nazwa przedmiotu Przetwarzanie języka naturalnego E Kod przedmiotu DS1S6NLP
Rodzaj zajęć obowiązkowy
Formy zajęć i liczba godzin W Ć L P Ps T S Semestr 6
30 30 Punkty ECTS 5
Program obowiązuje od 2025/2026
Przedmioty wprowadzające Uczenie głębokie (DS1S5UGL),   Uczenie maszynowe 2 (DS1S4UM2),  
Cele przedmiotu Przekazanie fundamentalnej wiedzy o metodach i narzędziach używanych do przetwarzania języka naturalnego. Rozwój praktycznych umiejętności w zakresie wykorzystywanych podstawowych i zaawansowanych technik.

Odniesienia do frameworka edukacyjnego mikrokompetencji SFIA:
Data Science (DATS) - poziom 3: stosowanie technik i metod analitycznych do przetwarzania danych tekstowych
Artificial Intelligence (AI) and Data Ethics (AIDE) - poziom 3: identyfikacja i ocena zagadnień etycznych związanych z technologiami NLP i modelami językowymi
Machine Learning (MLNG) - poziom 3: implementacja i stosowanie modeli uczenia maszynowego do zadań językowych
Programming/Software Development (PROG) - poziom 3: tworzenie aplikacji wykorzystujących algorytmy NLP i biblioteki do przetwarzania tekstu
Data Analytics (DAAN) - poziom 3: analiza i interpretacja danych tekstowych oraz wyników modeli NLP
Ramowe treści programowe Wprowadzenie do przetwarzania języka naturalnego (NLP), historia rozwoju i podstawowe pojęcia. Podstawowe techniki przetwarzania tekstu, tokenizacja, normalizacja i analiza gramatyczna. Praktyczne wykorzystanie narzędzi NLP w zadaniach takich jak analiza sentymentu i klasyfikacja tekstu. Praca z word embeddings i modelami językowymi, prompt engineering. Realizacja projektów zespołowych z zakresu NLP, od koncepcji do prezentacji wyników.
Inne informacje o przedmiocie przedmiot ma związek z prowadzoną na Uczelni działalnością naukową
Wyliczenie: Nakład pracy studenta związany z: Godzin
ogółem
W tym
kontaktowych
W tym
praktycznych
udziałem w wykładach 30 30
udziałem w innych formach zajęć 30 30 30
indywidualnym wsparciem merytorycznym procesu uczenia się, udziałem w egzaminie i zaliczeniach organizowanych poza planem zajęć 4 4
przygotowaniem do egzaminu 10
przygotowaniem do bieżących zajęć 51 51
Razem godzin: 125 64 81
Razem punktów ECTS: 5 2.6 3.2
Zakładane kierunkowe efekty uczenia się Wiedza Umiejętności Kompetencje
społeczne
DS1_W18 (H1_W01) DS1_U02 DS1_K01
DS1_W02 DS1_U05
DS1_W09 DS1_U08
DS1_W16 DS1_U10
DS1_U11
DS1_U21
Cele i treści ramowe sformułował(a) dr inż. Jerzy Krawczuk Data: 29/05/2025
Realizacja w roku akademickim 2027/2028
 
Treści programowe
Wykład
1. Wprowadzenie do przetwarzania języka naturalnego - podstawowe pojęcia, historia i zastosowania, wyzwania
2. Podstawowe techniki przetwarzania tekstu - wyrażenia regularne, odległość edycyjna
3. Tokenizacja i normalizacja tekstu - tokenizacja: na poziomie zdań, słów, oparta na modelach językowych (np. BPE, WordPiece), normalizacja tekstu: usuwanie stop words, stemming, lematyzacja
4. Analiza gramatyczna - części mowy i zdania
5. Reprezentacja tekstu - wektory słów, one-hot encoding, bag of words, TF-IDF
6. Word embeddings - Algorytmy Word2Vec, GloVe i FastText , biblioteka gensim
7. Klasyfikacja tekstu - metody klasyfikacji i praktyczne zastosowania jak spam detection czy analiza sentymentu, ewaluacja modeli
8. Wydobywanie informacji - relacje w tekście, NER named entity recognition
9. Reprezentacja wiedzy lingwistycznej - słowniki i tezaurusy
10. Przetwarzanie języka naturalnego z użyciem sieci neuronowych - podstawowe architektury: RNN, LSTM, GRU
11. Transformers i modele oparte na uwadze (Attention), wprowadzenie do architektury LLM
12. LLM w zastosowaniach. Chatboty, Asystenci AI, generowanie kodu. Integracja LLM z systemami zewnętrznymi, RAG - Retrieval Augmented Generation
13. LLM - fine-tuning i prompt engineering, metryki BLEU, ROUGE, perplexity
14. Etyka i bezpieczeństwo LLM - wykrywanie uprzedzeń i toksyczności, prywatność, ograniczenia modeli
15. Etyka i bezpieczeństwo LLM - wykrywanie uprzedzeń i toksyczności, prywatność, ograniczenia modeli
Pracownia specjalistyczna
1. Zapoznanie się z bibliotekami do przetwarzania języka naturalnego
2. Realizacja zadania z wyrażeniami regularnymi i odległością edycyjną
3. Analiza gramatyczna - ćwiczenia
4. Word embeddings - ćwiczenia
5. Word embeddings - kontynuacja ćwiczenia
6. Klasyfikator dokumentu - budowa i ewaluacja, wstępne przetwarzanie tekstu
7. Klasyfikator dokumentu - kontynuacja zadania
8. Prompt engineering
9. Ewaluacja modeli LLM
10. Zadania projektowe w grupach - omówienie i wybór tematów
11. Zadania projektowe w grupach - prezentacja pomysłu na realizację zadania
12. Realizacja zadania projektowego
13. Realizacja zadania projektowego
14. Prezentacja projektu
15. Zaliczenie pracowni
Metody dydaktyczne
(realizacja stacjonarna)
W wykład problemowy; wykład konwersatoryjny; wykład z prezentacją multimedialną
Ps programowanie z użyciem komputera
Metody dydaktyczne
(realizacja zdalna)
W wykład problemowy; wykład konwersatoryjny; wykład z prezentacją multimedialną
-
Forma zaliczenia
W egzamin pisemny z pytaniami testowymi i otwartymi
Ps opracowanie zadań projektowych realizowanych w grupach
Warunki zaliczenia
W Uzyskanie min. 30% z każdego E1-E2, a po spełnieniu tego warunku ostateczna ocena wynika z sumy uzyskanych punktów.
Kryteria oceny:
[ 0 – 50]% punktów – 2.0
(50 – 60]% punktów – 3.0
(60 – 70]% punktów – 3.5
(70 – 80]% punktów – 4.0
(80 – 90]% punktów – 4.5
(90 – 100]% punktów – 5.0
Ps Uzyskanie min. 30% z każdego E3-E5, a po spełnieniu tego warunku ostateczna ocena wynika z sumy uzyskanych punktów.
Kryteria oceny:
[ 0 – 50]% punktów – 2.0
(50 – 60]% punktów – 3.0
(60 – 70]% punktów – 3.5
(70 – 80]% punktów – 4.0
(80 – 90]% punktów – 4.5
(90 – 100]% punktów – 5.0
Symbol efektu Zakładane efekty uczenia się Odniesienie do efektów uczenia się zdefiniowanych dla kierunku studiów
Wiedza Umiejętności Kompetencje
społeczne
Wiedza: student zna i rozumie
E1 podstawowe techniki przetwarzania tekstu w języku naturalnym
E2 główne obszary zastosowań przetwarzania języka naturalnego
Umiejętności: student potrafi
E3 identyfikować problemy możliwe do rozwiązania metodami przetwarzania języka naturalnego
E4 korzystać z wybranych bibliotek i narzędzi w realizacji zadań wymagających przetwarzania języka naturalnego
Kompetencje społeczne: student jest gotów do
E5 krytycznej oceny możliwości wykorzystania technik przetwarzania języka naturalnego w różnych kontekstach
Symbol efektu Sposób weryfikacji efektu uczenia się Forma zajęć na której zachodzi weryfikacja
E1 egzamin pisemny W
E2 egzamin pisemny W
E3 ocena realizowanych zadań, ocena projektu Ps
E4 ocena realizowanych zadań, ocena projektu Ps
E5 ocena realizowanych zadań, ocena projektu Ps
Literatura podstawowa
1. J. S. Coleman, Introducing speech and language processing. Cambridge university press, 2005
2. S. Bird, E. Klein, E. LoperNatural language processing with Python: analyzing text with the natural language toolkit. O'Reilly Media, Inc., 2009
3. J. Thanaki, Python natural language processing. Packt Publishing Ltd., 2017
Literatura uzupełniająca
1. D. Rothman,Transformers for Natural Language Processing: Build innovative deep neural network architectures for NLP with Python, PyTorch, TensorFlow, BERT, RoBERTa, and more. Packt Publishing Ltd., 2021
2. Ravichandiran, S. (2021). Getting Started with Google BERT: Build and train state-of-the-art natural language processing models using BERT. Packt Publishing Ltd.
3. D. Altinok, Mastering spaCy: An end-to-end practical guide to implementing NLP applications using the Python ecosystem. Packt Publishing Ltd., 2021
Koordynator przedmiotu: dr inż. Jerzy Krawczuk, dr inż. Tomasz Łukaszuk Data: 30/05/2025