facebook LinkedIN LinkedIN - follow
IT SYSTEMS 6/2016 , AI a Business Intelligence

Aplikace big data governance v praxi



Trask SolutionsData governance je široké téma. Zabývá se jí mnoho institucí, existuje velké množství standardů, komunit a dalších teoretických zdrojů. Lze dlouze diskutovat o pravidlech architektury a funkčních dopadech do řešení. Pojďme se však zaměřit na to, co je klíčové, tedy proč a pro koho to děláme. Primárně je třeba se soustředit na výstupy pro koncové uživatele. Ti očekávají přístup k důvěryhodným informacím, kterým budou přes jejich zvyšující se komplexitu schopni správně rozumět a důvěřovat.


Data governance se zaměřením na metadata management a datovou kvalitu

Uživatelé chtějí pracovat s daty, kterým mohou věřit a na základě kterých mohou dělat dnes a denně rozhodnutí. Schopnost rozumět datům je silně ovlivněna neustále se zvyšující komplexitou. Stále rostoucí počet zdrojových systémů, data ze sociálních sítí a Internet of Things (IoT), to je jen pár vybraných hybatelů pro implementaci big data řešení. Mnoho společností si již prošlo úvodními proof-of-concept projekty, nainstalovali si své Hadoopy a nyní hledají způsob, jak vše dostat k většímu počtu uživatelů. A do toho neustále se měnící regulatorika. Nové metodiky s sebou nesou jasně definované požadavky na práci s daty, jejich kvalitu a striktní reporting.

V této souvislosti je potřeba se věnovat se zvýšenou pozorností právě metadata managementu a datové kvalitě. Aby uživatelé svým datům rozuměli a důvěřovali, uživatelé musí mít k dispozici nástrojovou podporu pro následující funkčnosti, ideálně integrované v jednotném nástroji:

  • Slovník obchodních termínů (byznys slovník)
  • Katalog reportů
  • Datový slovník
  • Moduly pro řízení a měření datové kvality

Big data přináší do této oblasti další komplexitu, zejména z pohledu metadat. Datové struktury jsou z principu věci velmi obecné, chybí logické datové modely, které by mohli analytici dat anotovat a sdílet uživatelům. Pro přístup k datům si uživatelé nevystačí s běžným SQL, ale musí se orientovat v nových dotazovacích jazycích. Přesto platí, že i v této oblasti lze uplatňovat stejné, nebo alespoň velmi podobné principy jako v oblasti „tradičního BI“.

Nástrojová podpora a její dopad do oblasti big data

V oblasti „tradičního BI“ je nástrojová podpora pro správu metadat i datovou kvalitu již dlouhodobě řešena. Je součástí komplexních softwarových balíků, které v rámci jedné rodiny produktů řeší problematiku datových skladů a reportingu „od A do Z“ (Teradata, SAS apod.). Současně jsou na trhu i další produkty třetích stran, které mají pro tyto oblasti vlastní řešení a současně přinášejí další přidanou hodnotu, například v oblasti sociální spolupráce a celkové integrace do jednotného uživatelského prostředí (Semanta Encyclopaedia apod.).

Otázkou je, zda lze aplikovat výše uvedené nástroje i v oblasti big data. Před jejím zodpovězením je nutno se zamyslet nad cílovou architekturou big data prostředí tak, aby byla z pohledu uživatelské srozumitelnosti udržitelná. Nezávislým pohledem lze s odstupem pozorovat následující evoluční fáze implementace a používání big data platformy:

  • Fáze 1 – Zcela nezávislé „tradiční BI“ a big data. Toto je počáteční fáze, kdy BI tým dostane novou hračku. Proběhne instalace infrastruktury a první testy, co platforma umí. Obvykle se jedná o technologické pokusy bez reálných případů užití, které by měly nějakou oporu v požadavcích byznys uživatelů.
  • Fáze 2 – Plná technická integrace. Nastává ve chvíli, kdy se BI tým naučí s big data řešením pracovat a současně přicházejí první reálné požadavky. Objevuje se dojem, že zpracování úloh v rámci big data stacku je oproti „klasickému BI“ efektivnější a rychlejší a to vede k jeho komplexnímu zaintegrování do celého BI prostředí. V tuto chvíli ale dostává na frak udržitelnost. Technologicky vypadá řešení brilantně, ale v obsahu se po čase nikdo nevyzná. Obecně lze říct, že věci příliš komplikujeme. V této fázi též governance projekty často selhávají.
  • Fáze 3 – Pragmatický pohled. V praxi se ukazuje, že skutečně samotné zpracování dat, strukturovaných i nestrukturovaných, je efektivnější v rámci big data řešení (např. Hadoop). To dává mimo jiné možnost významně snížit, popř. eliminovat datové toky do klasického DWH. Běžní uživatelé se ale v této velké Hadoop „haldě“ informací přehrabovat nemohou, neboť se v ní nevyznají. A zde nastupuje opět „tradiční DWH“ s pevným datovým modelem. Ukazuje se totiž, že v nové době může velmi dobře zastat funkci poskytovatele přímých podkladových dat pro reporting.

Všechny výše uvedené fáze, včetně relevantních logických datových toků, jsou pro přehlednost znázorněny v diagramu na obr. 1.

Obr. 1: Evoluční fáze implementace a používání big data platformy včetně relevantních logických datových toků
Obr. 1: Evoluční fáze implementace a používání big data platformy včetně relevantních logických datových toků

Zajímavostí na Fázi 3 ve výše uvedeném diagramu je fakt, že z pohledu architektury jsou dvě komponenty, které jsou nejblíže běžným konzumentům BI, „tradiční DWH“ a reporting. Zde přímo vidíme odpověď na otázku z úvodu této kapitoly, tedy že použitím tradičních nástrojů pro data governance v oblasti metadata managementu a datové kvality lze pokrýt významnou část výstupů i v oblasti big data. Navíc vývoj těchto nástrojů neustále probíhá s tendencí nová specifika big data oblasti plně pokrýt.

Dva praktické scénáře a jejich přínosy

Níže uvádíme dva scénáře, které mohou sloužit jako podklad pro novou strategickou iniciativu ve vaší společnosti. Není přitom rozdíl, zda je implementovat čistě v prostředí „tradičního BI“, či v prostředí big data. To jsou pouze technické faktory, které ovlivňují způsob implementace a integrace.

Metadata management

Co to je „raketa“? Je to sportovní náčiní na tenis? Nebo si pod tímto pojmem představíte meziplanetární raketu a cestu na Měsíc? Obě odpovědi jsou správné, tedy pokud spolu mluvíme stejnou řečí. Se stejným problémem se setkává i uživatel reportů, který jen těžko dokáže odpovědět na zdánlivě jednoduché otázky:

  • Jak je definován aktivní zákazník? Je to počet aktivních SIM karet? Počet účtů v billing systému? Počet fyzických osob a firem registrovaných v CRM systému? Do jaké míry ovlivňuje aktivita zákazníka na síti to, zda ho ještě vnímáme jako aktivního?
  • Proč mám dva reporty a každý z nich udává jiný počet aktivních zákazníků?
  • Jsou údaje o počtu zákazníků vůbec správné? Můžu jim věřit?

Uživatel při nemožnosti získat odpovědi na výše uvedené otázky rezignuje a využívá leckdy pouze omezenou sadu jemu známých reportů. Ovlivňuje to i jeho schopnost dělat zásadní rozhodnutí. Při rozporu údajů v různých reportech je nucen obrátit se na vývojáře, kteří musí provést časově náročnou analýzu, aby vysvětlili rozpory v reportech. Přitom vysvětlení je většinou jednoduché:

  • Položky se v reportech jmenují stejně, ale mají jiný význam. Řešením je centrální byznys slovník s publikovaným popisem významu termínů.
  • Položky v reportech mají sice stejný význam, ale jsou získány nebo spočítány rozdílným způsobem. Toto může vyřešit centrální datový slovník, evidující datové zdroje a jejich transformace.
  • Jaké jsou vlastně reporty, které se vztahují k aktivním zákazníkům? Centrální Report katalog, s aktuálním seznamem reportů a popisem jejich struktury je ideálním zdrojem takovéto informace.

Kvalita dat je základem pro zodpovědné rozhodování, které může zásadně ovlivnit úspěch či neúspěch našich kroků. Klíčem k dosažení této kvality je shodný dorozumívací jazyk všech participujících oddělení, pro všechny stejný význam termínů a samozřejmě snadný přístup ke zdroji informací. V tuto chvíli je tedy třeba zaměřit naši pozornost na nástrojovou podporu metadata managementu a doručit svým uživatelům následující funkce:

  • Jednotný BI portál, umožňující efektivně spolupracovat a sociálně interagovat, jako výkladní skříň pro všechny BI uživatele.
  • V rámci jednotného BI portálu implementovat komponenty byznys slovník, datový slovník a Report katalog.
  • Zajistit integraci těchto komponent na nativní zdroje metadat, tj. například repozitory datových modelů (automatické plnění datového slovníku) či reportingovou platformu (automatická synchronizace seznamu a struktury reportů).
  • Definovat procesy související s řízením životního cyklu metadat, zejména s ohledem na jejich vlastnictví a tzv. „stewardship“.

Uživatelské přínosy:

  • Byznys slovník se plní definicemi významů termínů, které společně používáme.
  • Datový slovník poskytuje komplexní pohled na strukturu dat, které skladujeme a dále využíváme v reportech.
  • Report katalog obsahuje seznam a popis struktury reportů, na základě nichž se v pravidelných pracovních cyklech rozhodujeme.
Trask, ilustrace


Řízení datové kvality

Mohu se spolehnout na to, že report, na jehož základě chci učinit nějaké rozhodnutí, je aktuální? Že data v něm obsažená jsou správná a kompletní? Toto jsou elementární otázky, kde musí mít každý odpovědný uživatel obchodních dat jasno, aby s klidným svědomím mohl řídit svůj byznys. Díky výstupům procesů metadata managementu již mají uživatelé možnost si rozumět. Co ale vědí o samotné kvalitě dat? Případná její neznalost je jistě pro uživatele frustrující. Řešení tohoto nedostatku důvěry je dalším klíčovým tématem, které lze formulovat následujícími požadavky:

  • Uživatel musí mít možnost sledovat aktuální i historickou kvalitu dat v reportech, které používá.
  • Definice kontrol datové kvality i prezentace výsledků jejich měření musí být jednoduchá a přehledná.
  • Celé řešení musí být integrované do jednoho nástroje, tedy uživatel musí mít možnost na jednom místě získat informace, aby svým reportům a datům rozuměl (metadata) i důvěřoval (kvalita dat).

Očekávané řešení je pak následující:

  • V rámci BI portálu doporučujeme implementovat modul pro řízení datové kvality.
  • Tento modul musí umožňovat definici byznys pravidel datové kvality a na jejich základě pak vytvářet konkrétní instance technických kontrol, ideálně automaticky. Samozřejmě se nesmí zapomínat ani na prezentaci výsledků měření, ta musí být též dostupná.
  • Technické kontroly datové kvality jsou platformně-specifické, poplatné použitému technickému řešení. Je vhodné v rámci DQ frameworku připravit sadu předdefinovaných typů kontrol a zajistit podporu jejich automatické instalace a měření na straně ostatních BI aplikací. Doporučujeme soustředit se především na takové dimenze datové kvality, jako jsou včasnost, kompletnost a přesnost dat. Ty mají největší přínos pro uživatele z pohledu dostupnosti dat pro reporting.
  • Samotnou implementaci kontrol je vhodné zahájit v předem vybrané omezené pilotní oblasti (například CRM datové toky).
  • V neposlední řadě je třeba definovat proces i šablonu pro DQA (obdoba SLA v oblasti datové kvality)

Uživatelské přínosy:

  • Cílem je poskytnout uživatelům jednoduchý a přehledný nástroj pro definici, měření a prezentaci výsledků reálných kontrol datové kvality.

Slovo závěrem

Je třeba mít na paměti, že data governance musí především řídit obchodní hodnotu dat zvyšováním jejich dostupnosti, využitelnosti, integrity a bezpečnosti. Tuto dostupnost, využitelnost, integritu a bezpečnost pak musí přímo vnímat samotní koncoví uživatelé dat. Cestou, jak jim tento pocit zajistit, je transparentní implementace potřebných funkcí v oblasti metadata managementu a datové kvality.

Ondřej Stokláska Ondřej Stokláska
Autor článku je manažer pro segment Business Intelligence ve společnosti Trask solutions.
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.

Inzerce

Business Intelligence je trend současných ERP systémů

Jedním z nejsilnějších trendů v současném vývoji podnikových informačních systémů jsou nástroje Business Intelligence (BI). Proč popularita BI mezi firmami stále roste, vysvětlil Miroslav Hlaváč, vedoucí obchodních týmů pro oblasti ENT, Cloud & BI ve společnosti Asseco Solutions.