open data otevřená data datové sady python excel
Jak rozjet kariéru v datech
Když se bavíme o kariéře v datech, má mnoho lidí pocit, že jde o problém typu vejce-slepice - nemůžete se stát datovým analytikem, inženýrem nebo vědcem, pokud nemáte zkušenosti s daty. A zároveň nemůžete získat praktické zkušenosti, když nemáte přístup k reálným datům.
Naštěstí existuje spousta on-line zdrojů, které můžete použít k vyhledávání a stahování datových sad. Pro tento článek jsme vybrali zdroje, které splňují následující 2 podmínky:
- Data lze stáhnout bezplatně
- Nemusíte se nikde registrovat
Hodně dat, hodně formátů
Zdroje dat jsou dostupné v mnoha různých formátech, naštěstí je hodně z nich k dispozici v textovém formátu CSV nebo v Excelu. Takové soubory bez problémů načtete pomocí libovolného nástroje a vyhnete se tak zdlouhavějšímu parsování v JSON nebo XML.
Drobnou nevýhodou některých datových sad je fakt, že i když se jedná o otevřená data, musíte dávat pozor kdy byla vytvořená. Někdy totiž můžete narazit na data, která nejsou zrovna nejaktuálnější.
České
Začneme s českými zdroji.
Popis | Odkaz |
---|---|
Kdo by nechtěl vidět do hospodaření státu, měst nebo obcí? Oficiální data jsou k dispozici včetně číselníků, která pomohou se v datech lépe vyznat. | monitor.statnipokladna.cz |
Data poskytuje také Ministerstvo financí. Hodně chválíme návod Jak pracovat s datovou sadou Faktury Ministerstva financí, který ukazuje, jak získat informace s využitím Pythonu, Pandas a Jupyter Notebooku. | opendata.mfcr.cz |
Katalog otevřených dat nabízí i Ministerstvo zdravotnictví. Na první pohled možná trochu monotematické, ale když se prokoušete několika stránkami, najdete i další informace, které se zdravím souvisí. | opendata.mzcr.cz |
Kolik je v Česku lékáren? A kdy mají otevřeno? Nejen to se můžete dozvědět z datových sad, které zveřejňuje Státní ústav pro kontrolu léčiv. | opendata.sukl.cz |
Jak to funguje v Praze? Pod pokličku stověžaté matičky můžete nahlédnout díky otevřeným pražským datům. | opendata.praha.eu |
Na konec jsme si nechali zdroj, kterým by se dalo klidně i začít. Národní katalog otevřených dat. | data.gov.cz |
Zahraniční
Zahraničních zdrojů je pochopitelně mnoho, vybrali jsme jen zlomek.
Popis | Odkaz |
---|---|
Pokud vás data zajímají, tak Our World in Data je stránka, kterou byste určitě neměli minout. Velmi dobře zpracováno, volný přístup k datům a vizualizacím. | ourworldindata.org |
Jakákoliv iniciativa, která chce zpřístupnit vědecká data, je vítaná. A právě o to se snaží figshare. | figshare.com |
Stránka FiveThirtyEight si už dávno získala proslulost svojí datovou žurnalistikou. Data, která jsou použita v článcích jsou volně k dispozici. | data.fivethirtyeight.com |
Otevřená data sdílí i NASA. Pokud vás kromě Země zajímá i vesmír, bude to pro vás to pravé místo. | data.nasa.gov |
Koronavirus
Populárním zdrojem pro data o pandemii - a nejen o ní - je už výše zmíněný Our World in Data.
Popis | Odkaz |
---|---|
Syrová data dostupná na Githubu vám umožní si udělat vlastní analýzu přesně tak, jak potřebujete. | github.com/owid/covid-19-data |
Užitečnou funkcionalitou je také možnost rychlých vizualizací bez nutnosti stahovat data. Například porovnání různých států je tak otázkou jednoho kliknutí. | Pacienti v nemocnicích |
Závěrem
Nakonec jsme si nechali jeden vyhledávač a jeden seznam.
Popis | Odkaz |
---|---|
Největší vyhledávač pochopitelně také nabízí vyhledávání datových sad. | datasetsearch.research.google.com |
Obsáhlý seznam různých datových sad, kterému by prospěly častější aktualizace. | github.com/awesomedata/awesome-public-datasets |