PySpark – Analýza velkých dat v Databricks (PYSPARK1)
Databáze, NoSQL a Big Data
Pracujete s daty v Excelu, Power Query, SQL nebo Pandas a potřebujete zpracovat gigabajty až terabajty dat? PySpark je Python rozhraní pro Apache Spark – nástroj, který zpracovává Big Data, a zvládne i to, co se nevejde do paměti jednoho počítače.
Workshop probíhá kompletně v prostředí Databricks Community Edition – žádná instalace, vše v prohlížeči. Naučíte se pracovat s PySpark DataFrame API a Spark SQL. Využijete své znalosti z SQL, syntaxe vám bude povědomá.
TOTO ŠKOLENÍ VÁM POMŮŽE:
- Naučit se zpracovávat velká data pomocí PySpark DataFrame API
- Používat Spark SQL pro dotazování dat známou SQL syntaxí
- Pracovat v prostředí Databricks – notebooky, nahrávání dat
- Načítat a ukládat data v různých formátech – CSV, Parquet, JSON
- Transformovat, filtrovat a agregovat data
- Porozumět chybovým hláškám a efektivně debugovat kód
KDO BY SE MĚL KURZU ZÚČASTNIT?
- Analytici pracující s velkými daty, kterým nestačí Excel nebo Pandas
- SQL uživatelé, kteří chtějí přenést své dovednosti do Big Data prostředí
- Data engineers budující ETL pipeline pro velká data
- Profesionálové připravující se na práci s Databricks
KDE A KDY KURZ PROBÍHÁ?
Kontaktujte nás
S námi
máte na výběr: Přijďte na
kurz osobně do naší učebny, nebo se ke kurzu
připojte online. Pokud preferujete online formu, uveďte prosím do poznámky v objednávce "Připojím se virtuálně".
Více informací k hybridní formě školení
naleznete zde.
Náplň kurzu:
Skrýt detaily
-
Začínáme s Databricks
-
Co je PySpark a kdy ho použít
-
Založení účtu v Databricks Community Edition
-
Orientace v prostředí – workspace, notebooky, cluster
-
Nahrání dat do Databricks
-
DataFrame – základní operace
-
Vytváření DataFrame
-
Schéma a datové typy
-
Výběr sloupců (select)
-
Filtrování řádků (filter, where)
-
Přidávání a transformace sloupců (withColumn)
-
Spark SQL
-
Registrace DataFrame jako tabulky (createTempView)
-
SQL dotazy nad daty (spark.sql)
-
Kombinace DataFrame API a SQL
-
SQL funkce v DataFrame API
-
Zdroje dat
-
CSV soubory
-
Parquet – optimální formát pro Spark
-
JSON soubory
-
Delta Lake (základy)
-
Zpracování dat
-
Transformace sloupců a datových typů
-
Práce s chybějícími hodnotami (null)
-
Spojování tabulek (join)
-
Sjednocení dat (union)
-
Agregace dat
-
Seskupování (groupBy)
-
Agregační funkce (count, sum, avg, min, max)
-
Více agregací najednou (agg)
-
Pivot tabulky
-
Řešení chyb
-
Čtení chybových hlášek v PySparku
-
Časté chyby: datové typy, chybějící sloupce
-
Kontrola dat a debugging
-
Výstupy a export dat
-
Ukládání do souborů (CSV, Parquet)
-
Vizualizace v Databricks
-
Stažení výsledků
-
Předpokládané znalosti:
-
Základy Pythonu (proměnné, cykly, funkce). Zkušenost s SQL, Excel, Power Query nebo Pandas výhodou.
-
Časový rozvrh:
-
2 dny (9:00hod. - 17:00hod.)
-
Cena za osobu:
-
10 800,00 Kč (13 068,00 Kč včetně 21% DPH)