Trwają zapisy do grupy
Analiza danych tekstowych i języka naturalnego
Podczas szkolenia uczestnicy dowiedzą się jak pozyskiwać i przetwarzać informacje z danych tekstowych, wykorzystując do tego programowanie w języku Python. Dodatkowo poznają również zagadnienia związane z Large Language Models (LLM).
3350 PLN+23% VAT (4120 PLN brutto / 1 os.)Czas trwania szkolenia:3 dni (24h)
Poziom zaawansowania:
Kod kursu:ANA/TXT
Analiza danych tekstowych i języka naturalnego
Cele szkolenia
- Zdobycie praktycznych umiejętności i wiedzy pozwalających na wykonywanie analiz języka naturalnego z wykorzystaniem języka Python
- Zapoznanie z problemami przetwarzania, czyszczenia oraz eksploracji danych tekstowych, a także z wykorzystaniem przygotowanych danych między innymi do budowania modeli uczenia maszynowego
- Wprowadzenie do Large Language Models (LLM)
Dla kogo?
- Programiści, pragnący zastosować w swoich systemach metody odkrywania wiedzy z danych tekstowych
- Analitycy, którzy chcą rozbudować swój warsztat analityczny o narzędzie analizy danych tekstowych
- Osoby zainteresowane zastosowaniem narzędzi statystycznych, metod uczenia maszynowego w pracy z danymi tekstowymi
Zalety
- Obszerne wprowadzenie do świata analizy danych tekstowych
- Wykorzystanie modeli LLM od OpenAI
- Przegląd zarówno klasycznych jak i współczesnych podejść do analizy tekstu
Wymagania
- Podstawowa znajomość języka Python
W cenie otrzymasz:
- Materiały szkoleniowe
- Certyfikat ukończenia szkolenia
- W przypadku szkolenia w trybie stacjonarnym zapewnimy Ci również lunch oraz sprzęt niezbędny do nauki
Program
Regex
- Czym są wyrażenia regularne?
- Patterny
- Znaki specjalne
- Funkcje biblioteki re
Pozyskiwanie tekstu
- API
- Web scraping
Preprocessing tekstu
- Tokenizacja
- Eliminacja interpunkcji i znaków specjalnych
- Usuwanie stopwords
- Stemming i lematyzacja
- Wykrywanie i usuwanie danych osobowych
Wizualizacja danych tekstowych
- Word cloud
- Wykres częstości słów
- Wykres długości zdań
Wektoryzacja i embeddingi
- Document-term matrix
- TF-IDF
- word2vec
- fasttext
- doc2vec
Miary podobieństwa tekstu
- Odległość Hamminga
- Odległość Levenshteina
- Odległość Cosinusowa
Uczenie maszynowe w analizie języka naturalnego
- Klasyfikacja dokumentów
- Analiza sentymentu
- Klasteryzacja dokumentów
Rozpoznawanie nazw własnych
Large Language Models
- Wprowadzenie do LLM na przykładzie modelu GPT
- OpenAI API
- Zamiana tekstu na obraz i audio
- LangChain