Szkolenie: Analiza danych tekstowych i języka naturalnego
Podczas szkolenia uczestnicy dowiedzą się jak pozyskiwać i przetwarzać informacje z danych tekstowych, wykorzystując do tego programowanie w języku Python. Dodatkowo poznają również zagadnienia związane z Large Language Models (LLM).
- Trenerzy praktycy
- Kameralne grupy
Czas trwania szkolenia:3 dni (24h)
Kod kursu:ANA/TXT
Analiza danych tekstowych i języka naturalnego
Cele szkolenia
Zdobycie praktycznych umiejętności i wiedzy pozwalających na wykonywanie analiz języka naturalnego z wykorzystaniem języka Python
Zapoznanie z problemami przetwarzania, czyszczenia oraz eksploracji danych tekstowych, a także z wykorzystaniem przygotowanych danych między innymi do budowania modeli uczenia maszynowego
Wprowadzenie do Large Language Models (LLM)
Dla kogo?
Programiści, pragnący zastosować w swoich systemach metody odkrywania wiedzy z danych tekstowych
Analitycy, którzy chcą rozbudować swój warsztat analityczny o narzędzie analizy danych tekstowych
Osoby zainteresowane zastosowaniem narzędzi statystycznych, metod uczenia maszynowego w pracy z danymi tekstowymi
Zalety
Obszerne wprowadzenie do świata analizy danych tekstowych
Wykorzystanie modeli LLM od OpenAI
Przegląd zarówno klasycznych jak i współczesnych podejść do analizy tekstu
Wymagania
Podstawowa znajomość języka Python
W cenie otrzymasz:
Materiały szkoleniowe
Certyfikat ukończenia szkolenia
W przypadku szkolenia w trybie stacjonarnym zapewnimy Ci również lunch oraz sprzęt niezbędny do nauki
Program szkolenia
Regex
Czym są wyrażenia regularne?
Patterny
Znaki specjalne
Funkcje biblioteki re
Pozyskiwanie tekstu
API
Web scraping
Preprocessing tekstu
Tokenizacja
Eliminacja interpunkcji i znaków specjalnych
Usuwanie stopwords
Stemming i lematyzacja
Wykrywanie i usuwanie danych osobowych
Wizualizacja danych tekstowych
Word cloud
Wykres częstości słów
Wykres długości zdań
Wektoryzacja i embeddingi
Document-term matrix
TF-IDF
word2vec
fasttext
doc2vec
Miary podobieństwa tekstu
Odległość Hamminga
Odległość Levenshteina
Odległość Cosinusowa
Uczenie maszynowe w analizie języka naturalnego
Klasyfikacja dokumentów
Analiza sentymentu
Klasteryzacja dokumentów
Rozpoznawanie nazw własnych
Large Language Models
Wprowadzenie do LLM na przykładzie modelu GPT
OpenAI API
Zamiana tekstu na obraz i audio
LangChain