PySpark – Analýza velkých dat v Databricks (PYSPARK1)

Databáze, NoSQL a Big Data

Pracujete s daty v Excelu, Power Query, SQL nebo Pandas a potřebujete zpracovat gigabajty až terabajty dat? PySpark je Python rozhraní pro Apache Spark – nástroj, který zpracovává Big Data, a zvládne i to, co se nevejde do paměti jednoho počítače.

Workshop probíhá kompletně v prostředí Databricks Community Edition – žádná instalace, vše v prohlížeči. Naučíte se pracovat s PySpark DataFrame API a Spark SQL. Využijete své znalosti z SQL, syntaxe vám bude povědomá.

TOTO ŠKOLENÍ VÁM POMŮŽE:

  • Naučit se zpracovávat velká data pomocí PySpark DataFrame API
  • Používat Spark SQL pro dotazování dat známou SQL syntaxí
  • Pracovat v prostředí Databricks – notebooky, nahrávání dat
  • Načítat a ukládat data v různých formátech – CSV, Parquet, JSON
  • Transformovat, filtrovat a agregovat data
  • Porozumět chybovým hláškám a efektivně debugovat kód

KDO BY SE MĚL KURZU ZÚČASTNIT?

  • Analytici pracující s velkými daty, kterým nestačí Excel nebo Pandas
  • SQL uživatelé, kteří chtějí přenést své dovednosti do Big Data prostředí
  • Data engineers budující ETL pipeline pro velká data
  • Profesionálové připravující se na práci s Databricks

KDE A KDY KURZ PROBÍHÁ?

Kontaktujte nás

S námi máte na výběr: Přijďte na kurz osobně do naší učebny, nebo se ke kurzu připojte online. Pokud preferujete online formu, uveďte prosím do poznámky v objednávce "Připojím se virtuálně".
Více informací k hybridní formě školení naleznete zde.

Náplň kurzu:

Skrýt detaily
  • Začínáme s Databricks
    1. Co je PySpark a kdy ho použít
    2. Založení účtu v Databricks Community Edition
    3. Orientace v prostředí – workspace, notebooky, cluster
    4. Nahrání dat do Databricks
  • DataFrame – základní operace
    1. Vytváření DataFrame
    2. Schéma a datové typy
    3. Výběr sloupců (select)
    4. Filtrování řádků (filter, where)
    5. Přidávání a transformace sloupců (withColumn)
  • Spark SQL
    1. Registrace DataFrame jako tabulky (createTempView)
    2. SQL dotazy nad daty (spark.sql)
    3. Kombinace DataFrame API a SQL
    4. SQL funkce v DataFrame API
  • Zdroje dat
    1. CSV soubory
    2. Parquet – optimální formát pro Spark
    3. JSON soubory
    4. Delta Lake (základy)
  • Zpracování dat
    1. Transformace sloupců a datových typů
    2. Práce s chybějícími hodnotami (null)
    3. Spojování tabulek (join)
    4. Sjednocení dat (union)
  • Agregace dat
    1. Seskupování (groupBy)
    2. Agregační funkce (count, sum, avg, min, max)
    3. Více agregací najednou (agg)
    4. Pivot tabulky
  • Řešení chyb
    1. Čtení chybových hlášek v PySparku
    2. Časté chyby: datové typy, chybějící sloupce
    3. Kontrola dat a debugging
  • Výstupy a export dat
    1. Ukládání do souborů (CSV, Parquet)
    2. Vizualizace v Databricks
    3. Stažení výsledků
Předpokládané znalosti:
Základy Pythonu (proměnné, cykly, funkce). Zkušenost s SQL, Excel, Power Query nebo Pandas výhodou.
Časový rozvrh:
2 dny (9:00hod. - 17:00hod.)
Cena za osobu:
10 800,00 Kč (13 068,00 Kč včetně 21% DPH)