Szkolenie: Apache Spark z wykorzystaniem języka Scala
Praktyczne wykorzystanie platformy Apache Spark w kontekście przetwarzania Big Data
- Trenerzy praktycy
- Kameralne grupy
Czas trwania szkolenia:3 dni (24h)
Kod kursu:BIGDATA/SPARK
Apache Spark z wykorzystaniem języka Scala
Cele szkolenia
Zapoznanie z platformą Spark oraz jej API w języku Scala
Pokazanie metod analizy dużej ilości danych
Dla kogo?
Analitycy i programiści, którzy znają podstawy Big Data i chcą rozpocząć przygodę z wykorzystaniem platformy Spark oraz językiem Scala
Zalety
Kompleksowe wprowadzenie do platformy Spark
Przedstawienie praktycznych przykładów oraz praktyk związanych z analizą dużej ilości danych
Apache Spark to narzędzie uniwersalne, za pomocą którego można przetwarzać nie tylko dane wsadowe, ale także takie, które mają postać strumieni. Osoby zainteresowane pogłębieniem tematu zapraszamy na kurs Przetwarzanie strumieni danych w Apache Spark
Wymagania
Dobra znajomość: języka SQL, relacyjnego modelu danych oraz hurtowni danych
Podstawowa znajomość obiektowych języków programowania np.: Java, Python lub Scala
Znajomość zagadnień Big Data, platformy Hadoop oraz powiązanych z nią narzędzi
Zalecany jest wcześniejszy udział w szkoleniu: Big Data i platforma Hadoop - wprowadzenie (BIGDATA/BASE)
W cenie otrzymasz:
Materiały szkoleniowe
Certyfikat ukończenia szkolenia
W przypadku szkolenia w trybie stacjonarnym zapewnimy Ci również lunch oraz sprzęt niezbędny do nauki
Program szkolenia
Podstawy języka Scala
Zmienne, kontrola statyczna i wnioskowanie typów
Instrukcje sterujące
Skala jako język obiektowy
Skala jako język funkcyjny
Złożone typy danych
Zagadnienia uzupełniające
Wprowadzenie do Apache Spark
Historia
Architektura
Typy konfiguracji
Terminologia - aplikacje, zadania, etapy, jednostki zadań
Jak to wszystko działa?
Struktura programu
Środowiska REPL - spark-shell
Dlaczego Scala?
Co dalej?
RDD API
Wprowadzenie do RDD
Transformacje
Akcje
Agregacja i redukcja
RDD par klucz-wartość
Spark SQL - DataFrames API
Wprowadzenie do Spark SQL
DataFrames vs. Dataset
Wczytywanie danych, źródła danych
Schemat danych
Przetwarzanie danych
Spark SQL - Dataset API
Wydajność Spark SQL
Dataset
Profilowanie danych
Czyszczenie danych
Podsumowanie: RDD, DataFrames, Dataset
Spark SQL - SQL API
Tabele zewnętrzne jako źródła danych
Tworzenie tabel zarządzalnych
Korzystanie z SQL
Usługa Thrift JDBC/ODBC Server
Dostęp za pomocą JDBC
Biblioteka Delta Lake
Wprowadzenie
Zasilanie Delta Lake
Odczyt i zapis
Obsługa modyfikacji
Elementy zaawansowane