facebook LinkedIN LinkedIN - follow
Big Data a Business Intelligence , AI a Business Intelligence

Datové bažiny a jak se z nich dostat pomocí Data Governance

Martin Bém


AdastraModerní datové platformy přinášejí rostoucí datové objemy, zvětšující se heterogenitu datových zdrojů a rozšiřující se škálu analytických úloh. Oproti minulosti se tak stále více a více rozevírají nůžky mezi dobrými a špatnými analytickými řešeními a přes veškerý pokrok a poznání stále více narážíme na velmi špatná analytická řešení alias datové bažiny (Data Swamp).


Co jsou a jak vznikají datové bažiny

Bažina je v původním slova smyslu území prosycené sladkou vodou pokryté rostlinstvem a rašelinou. Většina z nás si představí místo plné bahna a vlhkosti, nežádoucích jevů, pověr (bludičky) a překvapivých nebezpečí (bahenní plyn, hadi, krokodýli atd.). Na poli datové integrace se v přeneseném slova smyslu jedná o nepovedený výsledek implementace Data Warehousu (datového skladu) nebo Data Laku (datového jezera), které se díky nesprávnému datovému „proudění“ staly analogicky určitým typem bažiny.

Za datovou bažinu lze proto považovat jakoukoliv datovou platformu nebo množinu dat z datové platformy. Datové „bahno“ nelze nijak smysluplně analyticky využít, anebo ještě hůře výsledná analytika má v rozporu s obecným očekáváním negativní dopady na celou organizaci. Tyto problémy s kvalitou datové analytiky nevznikají nikdy náhodně, ale jsou důsledkem celé řady méně či více špatných rozhodnutí a je zcela jedno o jaký technologický základ se jedná (např. logické komponenty sklad/jezero nebo třeba servisní modely cloud/on-premise). Datová bažina se proto neomezuje pouze na Data Laky, se kterými se obvykle spojují díky jejich „neformální architektuře“ zaměřené primárně na surová data. Díky tomuto přístupu mají Data Laky pouze větší tendenci “zbažinatět” než je tomu v případě klasického datové skladu díky výrazně flexibilnějším vlastnostem, které svádí k odkládání systematické údržby řešení, což u datové skladu díky jeho formalizované architektuře vždy nejde.

Data Governance bojuje s datovým bahnem

Máme tedy opustit pokročilý koncept Data Laku a vrátit se zpátky o několik desetiletí ke starým ale prověřeným Data Warehousům? Rozhodně ne, protože ani datový sklad není zárukou, že se nakonec nestane datovou bažinou, navíc ještě s jasným obrysem. Bez ohledu na použitý typ datové platformy je nutné klást mnohem větší důraz na datovou strategii a Data Governance, která je jediným účinným nástrojem proti datovému bahnu. Data Governance musí vždy vycházet z aktuální datové strategie definující využití datových aktiv v souladu se strategií firmy a nelze se spoléhat na nějaké obecné standardy.

Datová strategie jako dokument obvykle zcela chybí, přestože definuje vztah organizace k jejím datovým aktivům. Obsahem tohoto dokumentu by měly být minimálně definice cílů, soupis souvisejících rizik, principy a koncepce celého data managementu. Na tento definiční dokument by měla navázat Data Governance a definovat exekuční rámec a prostředky pro naplnění této strategie opět v souladu s celkovou strategií organizace.

V praxi se Data Governance nejčastěji redukuje na vševědoucí pasivní dokument schovaný někde v knihovničce pro horší časy nebo pro auditora podle toho, kdo nebo co přijde dřív. Druhým, o něco méně rozšířeným, ale také špatným pojetím je omezení Data Governance pouze na oblast datové kvality, a to ještě pouze v reaktivní režimu. Obě pojetí jsou nedostačující a nerespektují samotnou podstatu problému.

V době datového boomu prostě nelze používat zastaralé nástroje na nové problémy. Správně pojatá Data Governance nedělá data management složitějším, ale naopak jej zjednodušuje a zlevňuje, protože proaktivně řeší problémy, které se reaktivně řeší již jen vynaložením vysokých nákladů nebo je organizace zametou pod koberec, vůbec je neřeší a doufají v trochu toho štěstí, že se nic nestane. Následně pak dochází k nežádoucímu růstu nákladů nebo poklesu tržeb. Bez ucelené Data Governance nelze řídit životní cyklus dat ani životní cyklus celé datové platformy. Každá správně pojatá Data Governance pokrývá datovou architekturu, metadata management, bezpečnost dat, řízení master dat, provoz, datovou integraci, datovou kvalitu a technologie.

Zapadli jste do datových bažin?

Základním pravidlem zvládání bažin je do bažiny se vůbec nedostat. Jak ale předejít porušení nebo dokonce napravit překročení tohoto jednoduchého pravidla? Pro zjednodušení předpokládejme, že máme datovou strategii i nějaký skvělý přizpůsobený framework Data Governance. Jak poznáme, že se z naší datové platformy přes veškerou snahu stala nebo se brzy stane datová bažina? Nejprve je potřeba si odpovědět na následující otázky:

  • Máme představu, co a jak chceme s daty dělat?
  • Víme, jak a k čemu se data používají?
  • Je časově náročné získat data v požadované struktuře?
  • Víme, jak data vznikají a jaký je jejich význam?
  • Máme ucelenou aktuální dokumentaci datové platformy?
  • Máme metadata popisující datové množiny a datové transformace?
  • Lze data ad-hoc prohledávat a analyzovat?
  • Jsou data propojená, konsolidovaná a kompletní (logicky nebo fyzicky)?
  • Dokážeme určit, které procesy dokáží z našich dat vytvořit hodnotu pro koncové uživatele nebo zákazníky?
  • Jsou naše data dostatečně kvalitní?

Pokud si u konkrétní datové platformy na většinu otázek odpovíme záporně, existuje veliká pravděpodobnost, že opravdu máme vlastní nefalšovanou datovou bažinu. Jak moc je ale problematická, příp. nákladná na odstranění? Velmi záleží na hloubce a šířce datové bažiny a možnostech uvolnit datové toky tak, aby byly smysluplně využitelné. V extrémních případech je vhodnější postavit nové řešení na zelené louce bez předchozích chyb. V obvyklých případech postačují dílčí úpravy, které do datové platformy implementují nástroje a procesy Data Governance.

Jak se z datové bažiny vysvobodit?

Jak tedy zcela konkrétně postupovat v případě „vysušení“ datové bažiny?

1. Definujte a popište datové množiny

Nejprve je nutné definovat a popsat datové množiny včetně jejich účelu a obsahu. Definice obsahu včetně odpovídajících metadat umožňuje smysluplné využití dat jako takových koncovými uživateli. Není umění sbírat tisíce položek ke každému obchodnímu případu, ale je nutné vybrat pouze ty položky, které jsou opravdu potřebné a užitečné. Toto doporučení sice do jisté míry popírá koncepci Data Laku, ale výrazně usnadňuje „vysoušení“.

2. Stanovte vlastníky dat

Po definici a popisu datových aktiv je potřeba stanovit jejich vlastníky. Pouze vlastníci dat dokáží říct, jak data mají vypadat a jakou mají mít kvalitu, aby vůbec mohla být použita pro další zpracování (analýzy, reporty atd.). V praxi se tento problém často bagatelizuje přenesením odpovědnosti za data na IT oddělení, které zpravidla nemá odpovídající odbornost. Je nutné vyřešit i otázku zabezpečení dat, které opět může definovat pouze jejich vlastník. Bez jasné odpovědnosti se každá platforma stane dřív nebo později datovou bažinou a je úplně jedno, jestli je to flexibilní Data Lake nebo rigidní Data Warehouse.

3. Definujte bezpečnostní model včetně přístupových práv k datům

Definovaný bezpečnostní model umožňuje zpřístupnění datových aktiv. Data by měla být zpřístupněna tak, aby byla snadno prohledávatelná a analyzovatelná lidskými uživateli. Zapomenout nesmíme ani na technologickou stránku věci, která má obrovský vliv na efektivitu odbahnění. Cílem by měla být maximální automatizace, a to nejen v oblasti zpracování, ale i oblastech tzv. pokročilé analytiky jako je zpracování přirozeného jazyka, Cognitive Intelligence a Machine Learning. Tyto technologie umožňují předzpracování datových analýz a velmi výrazně zlepšují a zrychlují analytiku koncových uživatelů. Bez této nadstavby nelze dlouhodobě zajistit správné využití dat uložených v datové platformě.

4. Nebo se obraťte na specializované firmy

Tak jako není ostudou se nechat léčit lékařem, není ani ostudou se při vysoušení datových bažin obrátit na odborníky ze specializovaných firem, které mají se zpracováním datového bahna bohaté zkušenosti a v mnoha případech mohou datovou platformu úplně zachránit. Po vyčištění je nutné věnovat maximální pozornost údržbě a dodržování všech pravidel, aby se bažina nevrátila. Vyžaduje to mnoho kázně, ale vynaložené úsilí a náklady se ve srovnání s novým vysoušením bohatě vyplatí.

Podnikejte na základě kvalitních dat, ne s datovým bahnem

Z každé datové bažiny se lze nějak dostat. Jen je otázkou jak. Někdy to sice znamená vynaložení nemalých nákladů, ale výsledkem je opravdu daty optimalizované podnikaní, které generuje dlouhodobě mnohem vyšší zisk než systém založený na principu samospádu. Určitě jste už mnohokrát slyšeli, že dnes jsou kvalitní data tím největším bohatstvím organizací. To samozřejmě platí, ale nelze je spravovat a používat bez efektivně fungujících datových platforem. Ty ani náznakem nesmí připomínat datové bažiny, ve kterých se člověk nebo organizace buď ztratí nebo v horším případě přímo utopí.

Martin Bém Martin Bém
Autor článku působí jako Senior Consultant ve společnosti Adastra. Aktivně se věnuje návrhu a vývoji datových skladů, Data Governance a datovému modelování. Podílel se na řadě projektů datových skladů v České republice i v zahraničí, primárně v oblasti bankovnictví a finanční služeb.
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.

Inzerce

Konec papírování, digitalizujte a usnadněte si práci!

IT Systems 3/2024V aktuálním vydání IT Systems jsme se zaměřili na vývoj digitalizace ve světě peněz, tedy v oblasti finančnictví a pojišťovnictví. Dozvíte se například, proč je aktuální směrnice PSD2 v inovaci online bankovnictví krokem vedle a jak by její nedostatky měla napravit připravovaná PSD3. Hodně prostoru věnujeme také digitalizaci státní správy a veřejného sektoru, která nabírá obrátky.