CSV, JSON nebo Parquet? Jaký formát je pro data nejlepší?

Zpět na blog

CSV, JSON nebo Parquet? Jaký formát je pro data nejlepší?

data csv json parquet excel

Datová analytika používá několik základních formátů pro ukládání souborů. Mezi nejpoužívanější patří CSV. Je to univerzální formát, který umí zapsat a přečíst většina aplikací pro datovou analytiku. Není to ale jediný způsob, který se v praxi používá pro práci s daty.

Kromě nezpochybnitelného tabulkového krále, kterým je Excel, existují i další formáty. 😉

Souborové formáty

CSV je asi nejznámějším, ale zdaleka ne jediným formátem. Jedním z nejčastějších formátů je CSV, ale existují i další možnosti jako JSON, Parquet a nesmíme vynechat ani Excel. V tomto článku se podíváme na další, často používané formáty, a také si uděláme malé srovnání.

Při přenosu dat mezi systémy a aplikacemi je důležité zvolit vhodný formát. Jeho volba ovlivní výkon - rychlost zápisu a čtení dat a také flexibilitu - jak snadno umí aplikace s daným formátem pracovat.

Každý formát má své výhody a nevýhody.

CSV (Comma-Separated Values)

CSV je textový formát, kde jsou data oddělena čárkami (nebo jiným oddělovačem, například středníkem).

Výhody:

  • Snadno čitelný pro člověka i pro stroj
  • Jednoduchý na čtení a zápis
  • Široká podpora napříč systémy

Nevýhody:

  • Nepodporuje datové typy
  • Nevhodný pro složitěji strukturovaná data
  • Nevhodný pro velké datové sady (je ale možná komprese: zip, apod.)


JSON (JavaScript Object Notation)

JSON je textový formát určený pro přenos strukturovaných dat.

Výhody:

  • Čitelný pro člověka i pro stroj
  • Vhodný pro hierarchická data
  • Široká podpora v programovacích jazycích

Nevýhody:

  • Vyšší velikost souborů ve srovnání s CSV
  • Složitější zpracování pro komplikovaně strukturovaná data
  • Pomalejší zpracování pro velké datové sady

Parquet

Parquet je sloupcový (column-oriented) formát optimalizovaný pro analytické účely a velké datové sady.

Výhody:

  • Efektivní komprese a rychlé čtení specifických sloupců
  • Ideální pro velké datové sady v datových skladech
  • Podpora datových typů

Nevýhody:

  • Vyžaduje specializované knihovny pro čtení
  • Pro člověka nečitelný formát

Excel (XLSX)

Excel je tabulkový formát, který podporuje data a jejich vizualizaci.

Výhody:

  • Široká podpora v kancelářských aplikacích
  • Možnost vizualizace dat a tvorby grafů
  • Podpora složitějších funkcí (např. makra)

Nevýhody:

  • Omezená kompatibilita mimo kancelářské aplikace
  • Nevhodný pro velmi velká data

Srovnání

Na závěr jsme porovnali velikost stejné datové sady uložené v různých formátech. Jedná se o syntetická data o velikosti 10MB, které si můžete stáhnout např. zde.

názevvelikost
10mb.json11.0 MB
10mb.csv10.0 MB
10mb.csv.zip5.8 MB
10mb.parquet1.4 MB
10mb.xlsx1.4 MB

Líbil se vám článek? Sdílejte ho s ostatními

nebo nám napište něco hezkého. Děkujeme!

Zpět na blog

Python pro každý den

Jak si užít Python a nezabloudit v kódu

Zobrazit knihu

Python - základy

Naučte se základy Pythonu - populárního jazyka, který vzal datovou vědu doslova útokem.

Zobrazit kurz

Power BI - Základy

I business uživatel může být datový analytik. Zjednodušte si práci s daty díky Power BI.

Zobrazit kurz

Hledáme další autory

Publikujte na Lovely Blogu a inspirujte ostatní! Sdílením svých znalosti si budujete osobní značku.

Kontaktujte nás

Odběr novinek

Novinky, návody a tipy přímo do vašeho emailu.

Copyright © 2018-2025, Colorbee, s.r.o.

Designed by grafikli.cz in Prague.