facebook LinkedIN LinkedIN - follow
Big Data a Business Intelligence , AI a Business Intelligence

Posun kompetencí ve zpracování velkých dat

Martin Plajner


LogioPojem Big Data rezonuje světem průmyslu a služeb tak silně, že už snad není nikdo, kdo by o nich neslyšel a nevěděl, o co vlastně jde. Co se ale na velká data podívat z trochu jiné perspektivy? Jak je to vlastně s lidmi, kteří s velkými daty začínají pracovat, a nástroji, které na to využívají? V následujících řádcích asi nezodpovím příliš zásadních otázek, místo toho jich spíše několik položím a upozorním tak na některá úskalí, s kterými se v naší praxi setkáváme.


Bavíme se o době rychlého technologického pokroku. Dnes by nikoho nenapadlo ptát se, jestli potenciální zaměstnanec umí ovládat smartphone. Není tomu ale zas tak dlouho, co to nebylo úplnou samozřejmostí. A to samé neplatí pouze o technologiích v podobě hardwaru, ale i o technologických dovednostech, kterými disponujeme, a z velké části je dáno i způsobem vnímání okolního světa.

To, co ještě nedávno byla velmi složitá operace, je dnes velmi snadné udělat. Vezmeme-li například účetní systémy, dnes už pro menší firmy nejsou nutní speciálně vyškolení pracovníci a experti na specifické programy. Vznikají stále sofistikovanější a schopnější nástroje, které nám umožní zpracovat konkrétní úlohy s opravdu marginálním úsilím.

Klíčové kompetence zaměstnance ve velkých datech

Právě proto se dnes často ani nebudete ptát, jestli umí uchazeč o pozici pracovat s excelem. Dříve velmi běžná otázka s nejasnou odpovědí dnes pomalu ustupuje do ústraní. Když dorazí uchazeč na pohovor, ptáme se, jak dobře umí pracovat s excelem. A často to i zkoušíme. Ve skutečnosti nám ale nejde o nástroj samotný, ale spíše o schopnost určitého druhu myšlení a přístupu. To se totiž ukazuje jako možná to nejpodstatnější pro začátek práce s velkými daty.

Setkáváme se s mnoha ambiciózními kolegy a lidmi napříč všemi věkovými kategoriemi, kteří se nemůžou dočkat, až se začnou s příslušnými systémy a nástroji učit zacházet. To je rozhodně snaha, která je velmi chvályhodná a je třeba ji podporovat. Současně je ale potřeba, aby si každý takový člověk a jeho okolí uvědomili, že to má jisté potíže.

Velká data vyžadují v první řadě velkou míru abstrakce. Schopnost myšlenkou obsáhnout patřičný rozsah a zvládnout zpracovat vzájemná propojení mezi nimi je zásadní. Mnoho nástrojů dnes i tyto činnosti zjednodušuje a snaží se uživatele od tohoto problému odstínit. Budeme-li trochu konkrétnější, tak jako příklad poslouží dnes již dobře známé PowerBI nebo Tableau, které umožňují tvorbu aplikací s pomocí vizualizačních prvků (a podobných řešení je stále více). Pak jsou tady silně se rozvíjející a z pohledu členské základny narůstající programovací jazyky Python a R.

Práci s daty, a především s těmito nástroji bychom mohli přirovnat ke znalosti jazyků. Nakonec se do značné míry jedná také o jazyk. V úrovni ovládání jazyka jsou minimálně tři odlišné skupiny. Tou první jsou rodilí mluvčí, kteří jazyk dokonale a plynně ovládají a dorozumí se s ním bez sebemenších problémů. Protože jsou na něj zvyklí, možná nemají zcela jasnou představu o formalismu a pravidlech.

Druhou skupinou jsou pak teoretici, kteří naopak umí jazyk používat především díky perfektně nastudovaným a osvojeným pravidlům. Mluví možná vznosně a používají zajímavé vazby, ale občas je to až zbytečně složité. Neznají ta moderní spojení a slovní zásoba možná také není nejlepší.

Poslední skupina jsou samouci. Ti, co se do toho vrhli po hlavě, naučili se, co se dalo a odkud se dalo. Rozhodně se domluví, možná i velmi dobře. Znají běžné fráze a v normální mluvě nedělají chyby. Problém nastane ve chvíli, kdy se téma dostane do neznámé oblasti nebo je třeba mluvit na nezvyklé úrovni. Občas se vyskytnou chyby, které souvisí s chybějícím formalismem, ke kterému by se šlo obrátit.

Nevím, jestli jste to v tom našli. Programátory a datové analytiky, kteří ve svém světě žijí, vnímám jako zmíněnou první skupinu, tedy rodilé mluvčí. Druhou pak představují softwaroví inženýři a architekti, kteří umí navrhnout řešení, ale realizace někdy pokulhává. A na závěr jsou tu ti nadšenci, kteří jsou ochotni se do toho vrhnout po hlavě a naučit se data sami. Nicméně stejně jako je tomu v jazyce, tak i ve velkých datech se dá snadno udělat chyba. A stejně tak samouci tuto chybu nevidí a ani nemohou. Tu pozná jen rodilý mluvčí nebo teoretik. V dalších odstavcích na příkladech vysvětlím, jaké nástrahy mohou na nováčky s daty čekat.

Potenciální úskalí nové doby zpracování dat

Není to vždy tak jednoduché, a ne vždy se daří. Ve skutečnosti je totiž mnohdy problematika dat komplexnější, než se na první pohled zdá. Zůstaneme-li v první řadě chvíli u reportingu, jedním z populárních nástrojů, který se stává stále populárnějším, je PowerBI.

Jedná se o platformu, která umožňuje agregovat různé datové zdroje a relativně snadno je dávat do kontextu a vytvářet nad nimi grafy a přehledy, tzv. vizuály. Toto prostředí se snaží, stejně jako mnoho dalších produktů, usnadnit uživatelům práci. Při nahrávání dat tak přichází s funkčností, která automaticky vyhledává vazby mezi tabulkami a propojuje je. Tato vlastnost je zaručeně příjemná, ale bohužel také potenciálně velmi nebezpečná. Vyhledání vazeb spoléhá na podobnost mezi názvy sloupců v tabulkách. A tato podobnost může být vysloveně náhodná, nebo zkrátka ne ta správná. Například ve chvíli, kdy do vašeho modelu vstupuje tabulka prodeje a odeslání objednávky. Logické propojení v tuto chvíli je přes číslo objednávky, ale vzhledem k tomu, že obě tabulky obsahují datum, může tak nějak samo dojít i k tomuto propojení. Výsledky, které potom dostanete, jsou naprosto chybné.

Tato situace je do značné míry jasná a nejspíše by se rychle odhalila. Bohužel jsou i případy, kdy je chyba málo znatelná, a pak může v modelu zůstávat po velice dlouhou dobu.

Dalším typickým problémem je situace nepochopení databázové operace zvané left-join. Jedná se o jednu z obvyklých otázek u pohovorů na datové specialisty a dříve databázové tvůrce a uživatele. Jak jsem zmínil výše, existuje tendence, že tyto dovednosti už pro práci s daty nejsou potřeba, protože to těžké za nás řeší software. Není to ale opět tak úplně pravda.

Vezměme pouhé dvě tabulky ‒ ceník a prodeje. Protože ceny se obvykle mění, obsahuje ceník pro jednu položku více cen pro různá období. Korektní postup je vzít správnou cenu pro správný čas prodeje. Je to vcelku jasné a srozumitelné. Nicméně problém nastane ve chvíli, kdy není uživatel obezřetný a neuvědomí si přesné chování propojení prodeje‒ceník. To se totiž vytvoří automaticky nebo na pár kliknutí, ale už nejspíš neupozorní na to, že něco úplně nehraje. Tato vazba pak ve finále způsobí to, že se řádky prodejů znásobí podle množství zadaných cen v ceníku. Pak samozřejmě jakékoliv součty a čísla, která jsou reportována, nedávají smysl.

Zajímavá poznámka k tomuto fenoménu je, že právě ve zmiňovaném PowerBI byla tato vazba dlouhou dobu zakázána. Jedná se o spojení many-to-many, kde na každé straně vztahu stojí více položek, které spolu mají být propojeny. Tato vazba má někdy nečekané a těžko uchopitelné chování. Databázově to není vítaná záležitost a obvykle se dá obejít volbou vhodných číselníků. Nicméně na intenzivní žádosti uživatelů byla restrikce této vazby uvolněna. Zůstalo z ní jen malé upozornění, které lze snadno přehlédnout.

V tuto chvíli je třeba si uvědomit, že většina tlaku na uvolnění tohoto omezení pochází právě od uživatelů, kteří nevědí, jak problém jinak správně vyřešit. To ale v praxi znamená, že si zřejmě ani nejsou vědomi konsekvencí svého jednání a vytváří tak potenciál pro chyby.

Vztah k nováčkům ve velkých datech

Tato situace má samozřejmě řešení. Je to tak, že pokud se něco chceme naučit, tak musíme procesem učení projít a k tomu nedílně patří i dělání chyb. Ty samozřejmě nechceme mít ve výsledcích. Proto je nutné v případech, kdy někdo nový s touto problematikou začíná, věnovat mu patřičné úsilí ze strany zkušenějších kolegů. Je třeba metodiku a postupy revidovat, aby nedocházelo k výše popsaným chybám ani jiným problémům a nastavit proces vlastní kontroly, který samotným nováčkům umožní chyby najít i samostatně. Na závěr nezbude, pokud sami začínáte nebo máte někoho podobného v týmu, než vám popřát hodně štěstí.

Martin Plajner Martin Plajner
Autor článku je konzultantem společnosti Logio.
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.