data csv json parquet excel
Datová analytika používá několik základních formátů pro ukládání souborů. Mezi nejpoužívanější patří CSV. Je to univerzální formát, který umí zapsat a přečíst většina aplikací pro datovou analytiku. Není to ale jediný způsob, který se v praxi používá pro práci s daty.
Kromě nezpochybnitelného tabulkového krále, kterým je Excel, existují i další formáty. 😉
Souborové formáty
CSV je asi nejznámějším, ale zdaleka ne jediným formátem. Jedním z nejčastějších formátů je CSV, ale existují i další možnosti jako JSON, Parquet a nesmíme vynechat ani Excel. V tomto článku se podíváme na další, často používané formáty, a také si uděláme malé srovnání.
Při přenosu dat mezi systémy a aplikacemi je důležité zvolit vhodný formát. Jeho volba ovlivní výkon - rychlost zápisu a čtení dat a také flexibilitu - jak snadno umí aplikace s daným formátem pracovat.
Každý formát má své výhody a nevýhody.
CSV (Comma-Separated Values)
CSV je textový formát, kde jsou data oddělena čárkami (nebo jiným oddělovačem, například středníkem).
Výhody:
- Snadno čitelný pro člověka i pro stroj
- Jednoduchý na čtení a zápis
- Široká podpora napříč systémy
Nevýhody:
- Nepodporuje datové typy
- Nevhodný pro složitěji strukturovaná data
- Nevhodný pro velké datové sady (je ale možná komprese: zip, apod.)
JSON (JavaScript Object Notation)
JSON je textový formát určený pro přenos strukturovaných dat.
Výhody:
- Čitelný pro člověka i pro stroj
- Vhodný pro hierarchická data
- Široká podpora v programovacích jazycích
Nevýhody:
- Vyšší velikost souborů ve srovnání s CSV
- Složitější zpracování pro komplikovaně strukturovaná data
- Pomalejší zpracování pro velké datové sady
Parquet
Parquet je sloupcový (column-oriented) formát optimalizovaný pro analytické účely a velké datové sady.
Výhody:
- Efektivní komprese a rychlé čtení specifických sloupců
- Ideální pro velké datové sady v datových skladech
- Podpora datových typů
Nevýhody:
- Vyžaduje specializované knihovny pro čtení
- Pro člověka nečitelný formát
Excel (XLSX)
Excel je tabulkový formát, který podporuje data a jejich vizualizaci.
Výhody:
- Široká podpora v kancelářských aplikacích
- Možnost vizualizace dat a tvorby grafů
- Podpora složitějších funkcí (např. makra)
Nevýhody:
- Omezená kompatibilita mimo kancelářské aplikace
- Nevhodný pro velmi velká data
Srovnání
Na závěr jsme porovnali velikost stejné datové sady uložené v různých formátech. Jedná se o syntetická data o velikosti 10MB, které si můžete stáhnout např. zde.
název | velikost |
---|---|
10mb.json | 11.0 MB |
10mb.csv | 10.0 MB |
10mb.csv.zip | 5.8 MB |
10mb.parquet | 1.4 MB |
10mb.xlsx | 1.4 MB |