data science trendy
Lubomír Husar
Datová věda je fenoménem napříč obory. Stačí se jen podívat na složení účastníků našich kurzů. Ať už jsou z velkých korporací nebo z malých firem, jedno je spojuje: bez dat se v práci prostě neobejdou. Část tvoří analytici, kteří si chtějí doplnit tradiční Excel o R, SQL nebo o Python, který se postupně prosadil jako "ten" jazyk pro datovou vědu. Tradičním problémem zůstává čištění a příprava dat. Většina účastníků zmiňuje právě data cleaning and wrangling jako časově nejnáročnější část aktivit týkajících se dat.
Specialisté na vzestupu
V pracovních inzerátech a na LinkedInu můžeme v roce 2020 očekávat ještě více rolí jako Data Analyst, Data Engineer, Machine Learning Specialist, a podobně. Původně tolik opěvovaná role Data Scientist, totiž představovala ideálního kandidáta, který disponuje hned mnoha dovednostmi. Od matematiky, statistiky, programování, komunikačních a prezentačních dovedností, až po znalosti konkrétního byznysu. Jenže se ukázalo, že takových odborníků je asi tolik, jako jednorožců ve volné přírodě. Proto očekávám zájem spíše o specialisty, kteří jsou dobří ve svojí oblasti - např. v analýze - ale nemusí nutně ovládat frameworky pro machine learning.
Data-Driven Enterprise
Společnost řízená daty je bezesporu ideál, ke kterému by měla směřovat každá firma. Uplynulé dekády ukazují, že je to stále velká výzva. I když má dnešní byznys na výběr z mnoha technologií a nástrojů - z nichž mnohé jsou zdarma - bez disciplíny, vize a jednotného přístupu to nepůjde.
Enterprise AI
Šéfové společností jsou ohledně AI většinou optimisté. Od jejího zavedení si slibují mnoho. Nicméně realita za těmito očekáváními pokulhává. Částečně to může být i vrozenou averzí zaměstnanců ke všemu, co hrozí automatizací a tím pádem i rušením pracovních míst. Velkou překážkou (33%) pro přijmutí umělé inteligence je proto údajně nedůvěra zaměstnanců.
Machine learning v cloudu
Všechny velké technologické společnosti nabízí řešení, které nějak souvisí s cloudem a strojovým učením. Realita? Pouze 12% společností ukládá všechna data pro strojové učení do cloudu. Ostatní používají smíšený (hybridní) přístup, kdy část dat je uložena v cloudu anebo nemají data v cloudu vůbec. A není těžké uhodnout proč. Možnost "vlastnit" svoje data a mít je pod naprostou kontrolou je prostě pro firmy důležitá.
Průběžné vzdělávání
Základní myšlenkou při vzniku LovelyData byla demokratizace vzdělávání v oblasti dat. Tedy taková osnova, která naučí i běžné uživatele - kteří nemají ambice stát se programátory - využívat existující technologie k usnadnění svojí práce. Právě v této oblasti vidím ještě veliký kus práce. Nestačí totiž jen zúčastnit se pár kurzů nebo několika týdenního bootcampu. Vzhledem k překotnému vývoji v této oblasti, je nutné, aby zájemci (a i jejich zaměstnavatelé) přijali za svou myšlenku průběžného vzdělávání. To vyžaduje čas, úsilí a v neposlední řadě i finanční prostředky.
Datová gramotnost
Hodně se mluví o tom, že by se datová gramotnost (data literacy) měla začít učit už ve školách. Nejde samozřejmě o to, vychovávat ze všech dětí datové vědce. Cílem jsou základní dovednosti, které umožní absolventům používat data ve své profesi.
Současné populární technologie to určitě umožňují. Ať už se bavíme o Pythonu, SQL nebo R (erku), jsou to nástroje dostupné každému. A po krátkém zaškolení je mohou používat i lidé, kteří nemají nutně ambice stát se programátory.
Datová věda na 3 řádcích
Například Python a jeho datová knihovna Pandas umožňuje načíst soubor v téměř libovolném formátu, vyfiltrovat a vizualizovat data doslova na pár řádcích.
Proto můžeme během našich kurzů účastníky "ohromovat" tvrzením, že žádný kód nebude mít víc než 3 řádky. Samozřejmě za to vděčíme i Jupyter Notebooku.
Díky tomu pak dokáže základní principy pochopit každý účastník.
Je teď ten správný čas na datovou vědu?
Rozhodně ano. Zaměstnavatelé stále trpí obrovským nedostatkem datově gramotných lidí - ať už se jedná o datové analytiky, datové inženýry, datové vědce, ale i třeba manažery. Protože pokud chce být firma "data-driven", potřebuje k tomu podporu všech a ne jen pár datových expertů. Zároveň je to i jedinečná příležitost pro všechny, kteří vidí svoji kariéru v datech. Byla by škoda ji promarnit.