Karta Przedmiotu
| Politechnika Białostocka | Wydział Informatyki | ||||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Kierunek studiów | Data Science |
Poziom i forma studiów |
pierwszego stopnia stacjonarne |
||||||||||||||||||||||||
| Grupa przedmiotów / specjalność |
Profil kształcenia | ogólnoakademicki | |||||||||||||||||||||||||
| Nazwa przedmiotu | Przetwarzanie języka naturalnego | E | Kod przedmiotu | DS1S6NLP | |||||||||||||||||||||||
| Rodzaj zajęć | obowiązkowy | ||||||||||||||||||||||||||
| Formy zajęć i liczba godzin | W | Ć | L | P | Ps | T | S | Semestr | 6 | ||||||||||||||||||
| 30 | 30 | Punkty ECTS | 5 | ||||||||||||||||||||||||
| Program obowiązuje od | 2025/2026 | ||||||||||||||||||||||||||
| Przedmioty wprowadzające | Uczenie głębokie (DS1S5UGL), Uczenie maszynowe 2 (DS1S4UM2), | ||||||||||||||||||||||||||
| Cele przedmiotu |
Przekazanie fundamentalnej wiedzy o metodach i narzędziach używanych do przetwarzania języka naturalnego. Rozwój praktycznych umiejętności w zakresie wykorzystywanych podstawowych i zaawansowanych technik. Odniesienia do frameworka edukacyjnego mikrokompetencji SFIA: Data Science (DATS) - poziom 3: stosowanie technik i metod analitycznych do przetwarzania danych tekstowych Artificial Intelligence (AI) and Data Ethics (AIDE) - poziom 3: identyfikacja i ocena zagadnień etycznych związanych z technologiami NLP i modelami językowymi Machine Learning (MLNG) - poziom 3: implementacja i stosowanie modeli uczenia maszynowego do zadań językowych Programming/Software Development (PROG) - poziom 3: tworzenie aplikacji wykorzystujących algorytmy NLP i biblioteki do przetwarzania tekstu Data Analytics (DAAN) - poziom 3: analiza i interpretacja danych tekstowych oraz wyników modeli NLP |
||||||||||||||||||||||||||
| Ramowe treści programowe | Wprowadzenie do przetwarzania języka naturalnego (NLP), historia rozwoju i podstawowe pojęcia. Podstawowe techniki przetwarzania tekstu, tokenizacja, normalizacja i analiza gramatyczna. Praktyczne wykorzystanie narzędzi NLP w zadaniach takich jak analiza sentymentu i klasyfikacja tekstu. Praca z word embeddings i modelami językowymi, prompt engineering. Realizacja projektów zespołowych z zakresu NLP, od koncepcji do prezentacji wyników. | ||||||||||||||||||||||||||
| Inne informacje o przedmiocie | przedmiot ma związek z prowadzoną na Uczelni działalnością naukową | ||||||||||||||||||||||||||
| Wyliczenie: | Nakład pracy studenta związany z: | Godzin ogółem |
W tym kontaktowych |
W tym praktycznych |
|||||||||||||||||||||||
| udziałem w wykładach | 30 | 30 | |||||||||||||||||||||||||
| udziałem w innych formach zajęć | 30 | 30 | 30 | ||||||||||||||||||||||||
| indywidualnym wsparciem merytorycznym procesu uczenia się, udziałem w egzaminie i zaliczeniach organizowanych poza planem zajęć | 4 | 4 | |||||||||||||||||||||||||
| przygotowaniem do egzaminu | 10 | ||||||||||||||||||||||||||
| przygotowaniem do bieżących zajęć | 51 | 51 | |||||||||||||||||||||||||
| Razem godzin: | 125 | 64 | 81 | ||||||||||||||||||||||||
| Razem punktów ECTS: | 5 | 2.6 | 3.2 | ||||||||||||||||||||||||
| Zakładane kierunkowe efekty uczenia się | Wiedza | Umiejętności | Kompetencje społeczne |
||||||||||||||||||||||||
| DS1_W18 (H1_W01) | DS1_U02 | DS1_K01 | |||||||||||||||||||||||||
| DS1_W02 | DS1_U05 | ||||||||||||||||||||||||||
| DS1_W09 | DS1_U08 | ||||||||||||||||||||||||||
| DS1_W16 | DS1_U10 | ||||||||||||||||||||||||||
| DS1_U11 | |||||||||||||||||||||||||||
| DS1_U21 | |||||||||||||||||||||||||||
| Cele i treści ramowe sformułował(a) | dr inż. Jerzy Krawczuk | Data: | 29/05/2025 | ||||||||||||||||||||||||
| Realizacja w roku akademickim | 2027/2028 | ||||||||||||||||||||||||||
| Treści programowe | |||||||||||||||||||||||||||
| Wykład | |||||||||||||||||||||||||||
| 1. | Wprowadzenie do przetwarzania języka naturalnego - podstawowe pojęcia, historia i zastosowania, wyzwania | ||||||||||||||||||||||||||
| 2. | Podstawowe techniki przetwarzania tekstu - wyrażenia regularne, odległość edycyjna | ||||||||||||||||||||||||||
| 3. | Tokenizacja i normalizacja tekstu - tokenizacja: na poziomie zdań, słów, oparta na modelach językowych (np. BPE, WordPiece), normalizacja tekstu: usuwanie stop words, stemming, lematyzacja | ||||||||||||||||||||||||||
| 4. | Analiza gramatyczna - części mowy i zdania | ||||||||||||||||||||||||||
| 5. | Reprezentacja tekstu - wektory słów, one-hot encoding, bag of words, TF-IDF | ||||||||||||||||||||||||||
| 6. | Word embeddings - Algorytmy Word2Vec, GloVe i FastText , biblioteka gensim | ||||||||||||||||||||||||||
| 7. | Klasyfikacja tekstu - metody klasyfikacji i praktyczne zastosowania jak spam detection czy analiza sentymentu, ewaluacja modeli | ||||||||||||||||||||||||||
| 8. | Wydobywanie informacji - relacje w tekście, NER named entity recognition | ||||||||||||||||||||||||||
| 9. | Reprezentacja wiedzy lingwistycznej - słowniki i tezaurusy | ||||||||||||||||||||||||||
| 10. | Przetwarzanie języka naturalnego z użyciem sieci neuronowych - podstawowe architektury: RNN, LSTM, GRU | ||||||||||||||||||||||||||
| 11. | Transformers i modele oparte na uwadze (Attention), wprowadzenie do architektury LLM | ||||||||||||||||||||||||||
| 12. | LLM w zastosowaniach. Chatboty, Asystenci AI, generowanie kodu. Integracja LLM z systemami zewnętrznymi, RAG - Retrieval Augmented Generation | ||||||||||||||||||||||||||
| 13. | LLM - fine-tuning i prompt engineering, metryki BLEU, ROUGE, perplexity | ||||||||||||||||||||||||||
| 14. | Etyka i bezpieczeństwo LLM - wykrywanie uprzedzeń i toksyczności, prywatność, ograniczenia modeli | ||||||||||||||||||||||||||
| 15. | Etyka i bezpieczeństwo LLM - wykrywanie uprzedzeń i toksyczności, prywatność, ograniczenia modeli | ||||||||||||||||||||||||||
| Pracownia specjalistyczna | |||||||||||||||||||||||||||
| 1. | Zapoznanie się z bibliotekami do przetwarzania języka naturalnego | ||||||||||||||||||||||||||
| 2. | Realizacja zadania z wyrażeniami regularnymi i odległością edycyjną | ||||||||||||||||||||||||||
| 3. | Analiza gramatyczna - ćwiczenia | ||||||||||||||||||||||||||
| 4. | Word embeddings - ćwiczenia | ||||||||||||||||||||||||||
| 5. | Word embeddings - kontynuacja ćwiczenia | ||||||||||||||||||||||||||
| 6. | Klasyfikator dokumentu - budowa i ewaluacja, wstępne przetwarzanie tekstu | ||||||||||||||||||||||||||
| 7. | Klasyfikator dokumentu - kontynuacja zadania | ||||||||||||||||||||||||||
| 8. | Prompt engineering | ||||||||||||||||||||||||||
| 9. | Ewaluacja modeli LLM | ||||||||||||||||||||||||||
| 10. | Zadania projektowe w grupach - omówienie i wybór tematów | ||||||||||||||||||||||||||
| 11. | Zadania projektowe w grupach - prezentacja pomysłu na realizację zadania | ||||||||||||||||||||||||||
| 12. | Realizacja zadania projektowego | ||||||||||||||||||||||||||
| 13. | Realizacja zadania projektowego | ||||||||||||||||||||||||||
| 14. | Prezentacja projektu | ||||||||||||||||||||||||||
| 15. | Zaliczenie pracowni | ||||||||||||||||||||||||||
| Metody dydaktyczne (realizacja stacjonarna) |
|||||||||||||||||||||||||||
| W | wykład problemowy; wykład konwersatoryjny; wykład z prezentacją multimedialną | ||||||||||||||||||||||||||
| Ps | programowanie z użyciem komputera | ||||||||||||||||||||||||||
| Metody dydaktyczne (realizacja zdalna) |
|||||||||||||||||||||||||||
| W | wykład problemowy; wykład konwersatoryjny; wykład z prezentacją multimedialną | ||||||||||||||||||||||||||
| - | |||||||||||||||||||||||||||
| Forma zaliczenia | |||||||||||||||||||||||||||
| W | egzamin pisemny z pytaniami testowymi i otwartymi | ||||||||||||||||||||||||||
| Ps | opracowanie zadań projektowych realizowanych w grupach | ||||||||||||||||||||||||||
| Warunki zaliczenia | |||||||||||||||||||||||||||
| W | Uzyskanie min. 30% z każdego E1-E2, a po spełnieniu tego warunku ostateczna ocena wynika z sumy uzyskanych punktów. Kryteria oceny: [ 0 – 50]% punktów – 2.0 (50 – 60]% punktów – 3.0 (60 – 70]% punktów – 3.5 (70 – 80]% punktów – 4.0 (80 – 90]% punktów – 4.5 (90 – 100]% punktów – 5.0 |
||||||||||||||||||||||||||
| Ps | Uzyskanie min. 30% z każdego E3-E5, a po spełnieniu tego warunku ostateczna ocena wynika z sumy uzyskanych punktów. Kryteria oceny: [ 0 – 50]% punktów – 2.0 (50 – 60]% punktów – 3.0 (60 – 70]% punktów – 3.5 (70 – 80]% punktów – 4.0 (80 – 90]% punktów – 4.5 (90 – 100]% punktów – 5.0 |
||||||||||||||||||||||||||
| Symbol efektu | Zakładane efekty uczenia się | Odniesienie do efektów uczenia się zdefiniowanych dla kierunku studiów | |||||||||||||||||||||||||
| Wiedza | Umiejętności | Kompetencje społeczne |
|||||||||||||||||||||||||
| Wiedza: student zna i rozumie | |||||||||||||||||||||||||||
| E1 | podstawowe techniki przetwarzania tekstu w języku naturalnym | ||||||||||||||||||||||||||
| E2 | główne obszary zastosowań przetwarzania języka naturalnego | ||||||||||||||||||||||||||
| Umiejętności: student potrafi | |||||||||||||||||||||||||||
| E3 | identyfikować problemy możliwe do rozwiązania metodami przetwarzania języka naturalnego | ||||||||||||||||||||||||||
| E4 | korzystać z wybranych bibliotek i narzędzi w realizacji zadań wymagających przetwarzania języka naturalnego | ||||||||||||||||||||||||||
| Kompetencje społeczne: student jest gotów do | |||||||||||||||||||||||||||
| E5 | krytycznej oceny możliwości wykorzystania technik przetwarzania języka naturalnego w różnych kontekstach | ||||||||||||||||||||||||||
| Symbol efektu | Sposób weryfikacji efektu uczenia się | Forma zajęć na której zachodzi weryfikacja | |||||||||||||||||||||||||
| E1 | egzamin pisemny | W | |||||||||||||||||||||||||
| E2 | egzamin pisemny | W | |||||||||||||||||||||||||
| E3 | ocena realizowanych zadań, ocena projektu | Ps | |||||||||||||||||||||||||
| E4 | ocena realizowanych zadań, ocena projektu | Ps | |||||||||||||||||||||||||
| E5 | ocena realizowanych zadań, ocena projektu | Ps | |||||||||||||||||||||||||
| Literatura podstawowa | |||||||||||||||||||||||||||
| 1. | J. S. Coleman, Introducing speech and language processing. Cambridge university press, 2005 | ||||||||||||||||||||||||||
| 2. | S. Bird, E. Klein, E. LoperNatural language processing with Python: analyzing text with the natural language toolkit. O'Reilly Media, Inc., 2009 | ||||||||||||||||||||||||||
| 3. | J. Thanaki, Python natural language processing. Packt Publishing Ltd., 2017 | ||||||||||||||||||||||||||
| Literatura uzupełniająca | |||||||||||||||||||||||||||
| 1. | D. Rothman,Transformers for Natural Language Processing: Build innovative deep neural network architectures for NLP with Python, PyTorch, TensorFlow, BERT, RoBERTa, and more. Packt Publishing Ltd., 2021 | ||||||||||||||||||||||||||
| 2. | Ravichandiran, S. (2021). Getting Started with Google BERT: Build and train state-of-the-art natural language processing models using BERT. Packt Publishing Ltd. | ||||||||||||||||||||||||||
| 3. | D. Altinok, Mastering spaCy: An end-to-end practical guide to implementing NLP applications using the Python ecosystem. Packt Publishing Ltd., 2021 | ||||||||||||||||||||||||||
| Koordynator przedmiotu: | dr inż. Jerzy Krawczuk, dr inż. Tomasz Łukaszuk | Data: | 30/05/2025 | ||||||||||||||||||||||||