Szkolenie: Przetwarzanie strumieni danych w środowiskach Big Data
Przetwarzanie strumieni danych (stream data processing) z roku na rok zyskuje na znaczeniu w szczególności w przypadku rozwiązań Big Data. Jest wymagane w wielu uznanych architekturach, oferuje możliwości, które nie sposób osiągnąć przy tradycyjnym/wsadowym przetwarzaniu danych. Kurs wprowadza uczestników w świat mechanizmów przetwarzania strumieni danych oraz najważniejszych narzędzi Big Data, które taki typ przetwarzania udostępniają. Zakres szkolenia obejmuje: podstawy platformy Kafka jako brokera wiadomości, Spark Streaming, Spark Structured Streaming, Kafka Streaming, a także wprowadzenie platformy Flink. Innymi słowy, szkolenie zawiera wprowadzenie do przetwarzania strumieni danych w środowiskach Big Data oraz przegląd najważniejszych rozwiązań począwszy od najprostszych, aż po najbardziej skomplikowane.
- Trenerzy praktycy
- Kameralne grupy
Czas trwania szkolenia:3 dni (24h)
Kod kursu:BIGDATA/STREAM
Przetwarzanie strumieni danych w środowiskach Big Data
Cele szkolenia
Zrozumienie najważniejszych mechanizmów przetwarzania strumieni danych
Poznanie najważniejszych narzędzi przetwarzania strumieni danych Big Data wraz z ich możliwościami oraz specyfiką, która je wyróżnia.
Implementacja szeregu procesów przetwarzających strumienie danych
Dla kogo?
Twórcy rozwiązań Big Data, którzy rozpoczynają swoją przygodę ze strumieniami danych
Programiści chcący poznać mechanizmy i narzędzia przetwarzania strumieni danych w systemach Big Data
Zalety
Jedno z niewielu szkoleń adresujących tematykę przetwarzania strumieni danych dokonując kompleksowego przeglądu jej mechanizmów i narzędzi
Kurs przechodzi od najbardziej podstawowych zagadnień do najbardziej złożonych co pozwala opanować skomplikowany świat przetwarzania strumieni danych
Narzędzia Apache możliwe do uruchomienia w rozwiązaniach lokalnych (on-premise), dostępne na platformach chmurowych
Praktyka przed teorią - wszystkie szkolenia technologiczne prowadzone są w formie warsztatowej. Konieczna teoria jest wyjaśniana na przykładzie praktycznych zadań
Konkretne umiejętności - w ramach każdego szkolenia rozwijamy praktyczne umiejętności związane z daną technologią i tematyką
Nauka z praktykami - wszyscy trenerzy na co dzień pracują w projektach, gwarantuje to dostęp do eksperckiej wiedzy i praktycznego know-how
Wymagania
Praktyczna znajomość programowania obiektowego Java
Podstawowa znajomość języka Scala
Znajomość platformy Hadoop i jej podstawowych narzędzi, zalecane ukończenie kursu Big Data i platforma Hadoop - wprowadzenie (BIGDATA/BASE)
Znajomość platformy Spark obejmująca zarówno przetwarzanie danych RDD jak i funkcjonalność Spark SQL, zalecane ukończenie kursu Apache Spark z wykorzystaniem języka Scala (BIGDATA/SPARK)
W cenie otrzymasz:
Materiały szkoleniowe
Certyfikat ukończenia szkolenia
W przypadku szkolenia w trybie stacjonarnym zapewnimy Ci również lunch oraz sprzęt niezbędny do nauki
Program szkolenia
Wprowadzenie do przetwarzania strumieni danych
Cele
Przetwarzanie wsadowe, mikrowsadowe i strumieniowe
Przetwarzanie stanowe i bezstanowe
Znacznik czasowe
Okna
Typy dostępnych operacji
Porządek danych, dane opóźnione, dane spóźnione
Obsługa awarii
Complex Event Processing
API wysokopoziomowe
Kafka jako broker wiadomości
Wprowadzenie do systemów wymiany wiadomości
Czym jest Kafka
Architektura
Temat (topic)
Konsumenci
Administracja
API producentów i konsumentów
Spark Streaming
Wprowadzenie
Podstawy - struktura i logika programu
Architektura
Dostępne źródła danych, strumienie wejściowe, odbiorniki
Transformacje bezstanowe i stanowe
Operacje wynikowe - ujścia (sink)
Mechanizmy zabezpieczające przed awariami
Spark Structured Streaming
Wprowadzenie
Podstawy - struktura i logika programu
Typy obsługi tabel wynikowych
Obsługa znaczników czasowych
Szczegóły API (źródła, transformacje, ujścia, uruchamianie)
Obsługa zdarzeń opóźnionych
Kafka Streams
Wprowadzenie
Podstawowe pojęcia
Strumienie a tabele
Obsługa znaczników czasowych
Kluczowe operacje
Zapytania interaktywne
Przykładowa prosta aplikacja
Kafka Streams DSL - szczegóły API
Przykładowa złożona aplikacja
Wprowadzenie do Apache Flink
Wprowadzenie
Architektura
Uruchomienie klastra
Podstawy - struktura i logika programu
Podstawy DataStream API
Flink w akcji
Obsługa znaczników czasowych
Okna
Wyzwalacze
Konektory
Podsumowanie