Wierk - Wydział Informatyki, Elektroniczne Ramy Kwalifikacji

Karta Przedmiotu

Politechnika Białostocka									Wydział Informatyki
Kierunek studiów		Data Science							Poziom i forma studiów				pierwszego stopnia stacjonarne
Grupa przedmiotów / specjalność									Profil kształcenia				ogólnoakademicki
Nazwa przedmiotu		Przetwarzanie języka naturalnego						E	Kod przedmiotu				DS1S6NLP
Nazwa przedmiotu		Przetwarzanie języka naturalnego						E	Rodzaj zajęć				obowiązkowy
Formy zajęć i liczba godzin		W	Ć	L	P	Ps	T	S	Semestr				6
Formy zajęć i liczba godzin		30				30			Punkty ECTS				5
Program obowiązuje od											2025/2026
Przedmioty wprowadzające		Uczenie głębokie (DS1S5UGL), Uczenie maszynowe 2 (DS1S4UM2),
Cele przedmiotu		Przekazanie fundamentalnej wiedzy o metodach i narzędziach używanych do przetwarzania języka naturalnego. Rozwój praktycznych umiejętności w zakresie wykorzystywanych podstawowych i zaawansowanych technik. Odniesienia do frameworka edukacyjnego mikrokompetencji SFIA: Data Science (DATS) - poziom 3: stosowanie technik i metod analitycznych do przetwarzania danych tekstowych Artificial Intelligence (AI) and Data Ethics (AIDE) - poziom 3: identyfikacja i ocena zagadnień etycznych związanych z technologiami NLP i modelami językowymi Machine Learning (MLNG) - poziom 3: implementacja i stosowanie modeli uczenia maszynowego do zadań językowych Programming/Software Development (PROG) - poziom 3: tworzenie aplikacji wykorzystujących algorytmy NLP i biblioteki do przetwarzania tekstu Data Analytics (DAAN) - poziom 3: analiza i interpretacja danych tekstowych oraz wyników modeli NLP
Ramowe treści programowe		Wprowadzenie do przetwarzania języka naturalnego (NLP), historia rozwoju i podstawowe pojęcia. Podstawowe techniki przetwarzania tekstu, tokenizacja, normalizacja i analiza gramatyczna. Praktyczne wykorzystanie narzędzi NLP w zadaniach takich jak analiza sentymentu i klasyfikacja tekstu. Praca z word embeddings i modelami językowymi, prompt engineering. Realizacja projektów zespołowych z zakresu NLP, od koncepcji do prezentacji wyników.
Inne informacje o przedmiocie		przedmiot ma związek z prowadzoną na Uczelni działalnością naukową
Wyliczenie:		Nakład pracy studenta związany z:											Godzin ogółem	W tym kontaktowych	W tym praktycznych
		udziałem w wykładach											30	30
		udziałem w innych formach zajęć											30	30	30
		indywidualnym wsparciem merytorycznym procesu uczenia się, udziałem w egzaminie i zaliczeniach organizowanych poza planem zajęć											4	4
		przygotowaniem do egzaminu											10
		przygotowaniem do bieżących zajęć											51		51
										Razem godzin:			125	64	81
										Razem punktów ECTS:			5	2.6	3.2
Zakładane kierunkowe efekty uczenia się													Wiedza	Umiejętności	Kompetencje społeczne
													DS1_W18 (H1_W01)	DS1_U02	DS1_K01
													DS1_W02	DS1_U05
													DS1_W09	DS1_U08
													DS1_W16	DS1_U10
														DS1_U11
														DS1_U21
Cele i treści ramowe sformułował(a)			dr inż. Jerzy Krawczuk										Data:		29/05/2025
Realizacja w roku akademickim								2027/2028
Treści programowe
		Wykład
		1.	Wprowadzenie do przetwarzania języka naturalnego - podstawowe pojęcia, historia i zastosowania, wyzwania
		2.	Podstawowe techniki przetwarzania tekstu - wyrażenia regularne, odległość edycyjna
		3.	Tokenizacja i normalizacja tekstu - tokenizacja: na poziomie zdań, słów, oparta na modelach językowych (np. BPE, WordPiece), normalizacja tekstu: usuwanie stop words, stemming, lematyzacja
		4.	Analiza gramatyczna - części mowy i zdania
		5.	Reprezentacja tekstu - wektory słów, one-hot encoding, bag of words, TF-IDF
		6.	Word embeddings - Algorytmy Word2Vec, GloVe i FastText , biblioteka gensim
		7.	Klasyfikacja tekstu - metody klasyfikacji i praktyczne zastosowania jak spam detection czy analiza sentymentu, ewaluacja modeli
		8.	Wydobywanie informacji - relacje w tekście, NER named entity recognition
		9.	Reprezentacja wiedzy lingwistycznej - słowniki i tezaurusy
		10.	Przetwarzanie języka naturalnego z użyciem sieci neuronowych - podstawowe architektury: RNN, LSTM, GRU
		11.	Transformers i modele oparte na uwadze (Attention), wprowadzenie do architektury LLM
		12.	LLM w zastosowaniach. Chatboty, Asystenci AI, generowanie kodu. Integracja LLM z systemami zewnętrznymi, RAG - Retrieval Augmented Generation
		13.	LLM - fine-tuning i prompt engineering, metryki BLEU, ROUGE, perplexity
		14.	Etyka i bezpieczeństwo LLM - wykrywanie uprzedzeń i toksyczności, prywatność, ograniczenia modeli
		15.	Etyka i bezpieczeństwo LLM - wykrywanie uprzedzeń i toksyczności, prywatność, ograniczenia modeli
		Pracownia specjalistyczna
		1.	Zapoznanie się z bibliotekami do przetwarzania języka naturalnego
		2.	Realizacja zadania z wyrażeniami regularnymi i odległością edycyjną
		3.	Analiza gramatyczna - ćwiczenia
		4.	Word embeddings - ćwiczenia
		5.	Word embeddings - kontynuacja ćwiczenia
		6.	Klasyfikator dokumentu - budowa i ewaluacja, wstępne przetwarzanie tekstu
		7.	Klasyfikator dokumentu - kontynuacja zadania
		8.	Prompt engineering
		9.	Ewaluacja modeli LLM
		10.	Zadania projektowe w grupach - omówienie i wybór tematów
		11.	Zadania projektowe w grupach - prezentacja pomysłu na realizację zadania
		12.	Realizacja zadania projektowego
		13.	Realizacja zadania projektowego
		14.	Prezentacja projektu
		15.	Zaliczenie pracowni
Metody dydaktyczne (realizacja stacjonarna)
		W	wykład problemowy; wykład konwersatoryjny; wykład z prezentacją multimedialną
		Ps	programowanie z użyciem komputera
Metody dydaktyczne (realizacja zdalna)
		W	wykład problemowy; wykład konwersatoryjny; wykład z prezentacją multimedialną
		-
Forma zaliczenia
		W	egzamin pisemny z pytaniami testowymi i otwartymi
		Ps	opracowanie zadań projektowych realizowanych w grupach
Warunki zaliczenia
		W	Uzyskanie min. 30% z każdego E1-E2, a po spełnieniu tego warunku ostateczna ocena wynika z sumy uzyskanych punktów. Kryteria oceny: [ 0 – 50]% punktów – 2.0 (50 – 60]% punktów – 3.0 (60 – 70]% punktów – 3.5 (70 – 80]% punktów – 4.0 (80 – 90]% punktów – 4.5 (90 – 100]% punktów – 5.0
		Ps	Uzyskanie min. 30% z każdego E3-E5, a po spełnieniu tego warunku ostateczna ocena wynika z sumy uzyskanych punktów. Kryteria oceny: [ 0 – 50]% punktów – 2.0 (50 – 60]% punktów – 3.0 (60 – 70]% punktów – 3.5 (70 – 80]% punktów – 4.0 (80 – 90]% punktów – 4.5 (90 – 100]% punktów – 5.0
Symbol efektu		Zakładane efekty uczenia się											Odniesienie do efektów uczenia się zdefiniowanych dla kierunku studiów
Symbol efektu		Zakładane efekty uczenia się											Wiedza	Umiejętności	Kompetencje społeczne
	Wiedza: student zna i rozumie
E1		podstawowe techniki przetwarzania tekstu w języku naturalnym											DS1_W02 DS1_W18 (H1_W01)
E2		główne obszary zastosowań przetwarzania języka naturalnego											DS1_W09 DS1_W16
	Umiejętności: student potrafi
E3		identyfikować problemy możliwe do rozwiązania metodami przetwarzania języka naturalnego												DS1_U02 DS1_U08 DS1_U10 DS1_U11
E4		korzystać z wybranych bibliotek i narzędzi w realizacji zadań wymagających przetwarzania języka naturalnego												DS1_U05 DS1_U10 DS1_U21
	Kompetencje społeczne: student jest gotów do
E5		krytycznej oceny możliwości wykorzystania technik przetwarzania języka naturalnego w różnych kontekstach													DS1_K01
Symbol efektu		Sposób weryfikacji efektu uczenia się										Forma zajęć na której zachodzi weryfikacja
E1		egzamin pisemny										W
E2		egzamin pisemny										W
E3		ocena realizowanych zadań, ocena projektu										Ps
E4		ocena realizowanych zadań, ocena projektu										Ps
E5		ocena realizowanych zadań, ocena projektu										Ps
Literatura podstawowa
		1.	J. S. Coleman, Introducing speech and language processing. Cambridge university press, 2005
		2.	S. Bird, E. Klein, E. LoperNatural language processing with Python: analyzing text with the natural language toolkit. O'Reilly Media, Inc., 2009
		3.	J. Thanaki, Python natural language processing. Packt Publishing Ltd., 2017
Literatura uzupełniająca
		1.	D. Rothman,Transformers for Natural Language Processing: Build innovative deep neural network architectures for NLP with Python, PyTorch, TensorFlow, BERT, RoBERTa, and more. Packt Publishing Ltd., 2021
		2.	Ravichandiran, S. (2021). Getting Started with Google BERT: Build and train state-of-the-art natural language processing models using BERT. Packt Publishing Ltd.
		3.	D. Altinok, Mastering spaCy: An end-to-end practical guide to implementing NLP applications using the Python ecosystem. Packt Publishing Ltd., 2021
Koordynator przedmiotu:		dr inż. Jerzy Krawczuk, dr inż. Tomasz Łukaszuk											Data:		30/05/2025