google plus
Tematické sekce
 
Branžové sekce
Přehledy
Gopas
 
Tematické seriály

Komplexní svět eIDAS

O nařízení eIDAS již bylo mnoho řečeno i napsáno. A proto jediné, o čem...

články >>

 

Trendy v CRM

Systémy pro řízení vztahů se zákazníky (CRM) prochází v posledních letech výraznou změnou. Zatímco dříve...

1. až 6. díl >>

 

Příručka úspěšného IT manažera

Dnes je řada IT manažerů opomíjena. Úspěšní bývají brouci Pytlíci a Ferdové...

články >>

 

Podnikové portály

Portály patří k oblíbeným technologiím, na kterých staví společnosti svá řešení. Ta jsou vstupní branou...

1. až 5. díl >>

 

Pokročilá analýza provozu datových sítí

V tomto čtyřdílném seriálu vás seznámíme s různými metodami a přístupy...

1. až 4. díl >>

 

Cesta k efektivnímu identity managementu

Správa identit a přístupů (IAM) je klíčová oblast pro zaručení bezpečnosti...

1. až 9. díl >>

IT SYSTEMS 6/2016 , Business Intelligence

Aplikace big data governance v praxi



Trask SolutionsData governance je široké téma. Zabývá se jí mnoho institucí, existuje velké množství standardů, komunit a dalších teoretických zdrojů. Lze dlouze diskutovat o pravidlech architektury a funkčních dopadech do řešení. Pojďme se však zaměřit na to, co je klíčové, tedy proč a pro koho to děláme. Primárně je třeba se soustředit na výstupy pro koncové uživatele. Ti očekávají přístup k důvěryhodným informacím, kterým budou přes jejich zvyšující se komplexitu schopni správně rozumět a důvěřovat.


Data governance se zaměřením na metadata management a datovou kvalitu

Uživatelé chtějí pracovat s daty, kterým mohou věřit a na základě kterých mohou dělat dnes a denně rozhodnutí. Schopnost rozumět datům je silně ovlivněna neustále se zvyšující komplexitou. Stále rostoucí počet zdrojových systémů, data ze sociálních sítí a Internet of Things (IoT), to je jen pár vybraných hybatelů pro implementaci big data řešení. Mnoho společností si již prošlo úvodními proof-of-concept projekty, nainstalovali si své Hadoopy a nyní hledají způsob, jak vše dostat k většímu počtu uživatelů. A do toho neustále se měnící regulatorika. Nové metodiky s sebou nesou jasně definované požadavky na práci s daty, jejich kvalitu a striktní reporting.

V této souvislosti je potřeba se věnovat se zvýšenou pozorností právě metadata managementu a datové kvalitě. Aby uživatelé svým datům rozuměli a důvěřovali, uživatelé musí mít k dispozici nástrojovou podporu pro následující funkčnosti, ideálně integrované v jednotném nástroji:

  • Slovník obchodních termínů (byznys slovník)
  • Katalog reportů
  • Datový slovník
  • Moduly pro řízení a měření datové kvality

Big data přináší do této oblasti další komplexitu, zejména z pohledu metadat. Datové struktury jsou z principu věci velmi obecné, chybí logické datové modely, které by mohli analytici dat anotovat a sdílet uživatelům. Pro přístup k datům si uživatelé nevystačí s běžným SQL, ale musí se orientovat v nových dotazovacích jazycích. Přesto platí, že i v této oblasti lze uplatňovat stejné, nebo alespoň velmi podobné principy jako v oblasti „tradičního BI“.

Nástrojová podpora a její dopad do oblasti big data

V oblasti „tradičního BI“ je nástrojová podpora pro správu metadat i datovou kvalitu již dlouhodobě řešena. Je součástí komplexních softwarových balíků, které v rámci jedné rodiny produktů řeší problematiku datových skladů a reportingu „od A do Z“ (Teradata, SAS apod.). Současně jsou na trhu i další produkty třetích stran, které mají pro tyto oblasti vlastní řešení a současně přinášejí další přidanou hodnotu, například v oblasti sociální spolupráce a celkové integrace do jednotného uživatelského prostředí (Semanta Encyclopaedia apod.).

Otázkou je, zda lze aplikovat výše uvedené nástroje i v oblasti big data. Před jejím zodpovězením je nutno se zamyslet nad cílovou architekturou big data prostředí tak, aby byla z pohledu uživatelské srozumitelnosti udržitelná. Nezávislým pohledem lze s odstupem pozorovat následující evoluční fáze implementace a používání big data platformy:

  • Fáze 1 – Zcela nezávislé „tradiční BI“ a big data. Toto je počáteční fáze, kdy BI tým dostane novou hračku. Proběhne instalace infrastruktury a první testy, co platforma umí. Obvykle se jedná o technologické pokusy bez reálných případů užití, které by měly nějakou oporu v požadavcích byznys uživatelů.
  • Fáze 2 – Plná technická integrace. Nastává ve chvíli, kdy se BI tým naučí s big data řešením pracovat a současně přicházejí první reálné požadavky. Objevuje se dojem, že zpracování úloh v rámci big data stacku je oproti „klasickému BI“ efektivnější a rychlejší a to vede k jeho komplexnímu zaintegrování do celého BI prostředí. V tuto chvíli ale dostává na frak udržitelnost. Technologicky vypadá řešení brilantně, ale v obsahu se po čase nikdo nevyzná. Obecně lze říct, že věci příliš komplikujeme. V této fázi též governance projekty často selhávají.
  • Fáze 3 – Pragmatický pohled. V praxi se ukazuje, že skutečně samotné zpracování dat, strukturovaných i nestrukturovaných, je efektivnější v rámci big data řešení (např. Hadoop). To dává mimo jiné možnost významně snížit, popř. eliminovat datové toky do klasického DWH. Běžní uživatelé se ale v této velké Hadoop „haldě“ informací přehrabovat nemohou, neboť se v ní nevyznají. A zde nastupuje opět „tradiční DWH“ s pevným datovým modelem. Ukazuje se totiž, že v nové době může velmi dobře zastat funkci poskytovatele přímých podkladových dat pro reporting.

Všechny výše uvedené fáze, včetně relevantních logických datových toků, jsou pro přehlednost znázorněny v diagramu na obr. 1.

Obr. 1: Evoluční fáze implementace a používání big data platformy včetně relevantních logických datových toků
Obr. 1: Evoluční fáze implementace a používání big data platformy včetně relevantních logických datových toků

Zajímavostí na Fázi 3 ve výše uvedeném diagramu je fakt, že z pohledu architektury jsou dvě komponenty, které jsou nejblíže běžným konzumentům BI, „tradiční DWH“ a reporting. Zde přímo vidíme odpověď na otázku z úvodu této kapitoly, tedy že použitím tradičních nástrojů pro data governance v oblasti metadata managementu a datové kvality lze pokrýt významnou část výstupů i v oblasti big data. Navíc vývoj těchto nástrojů neustále probíhá s tendencí nová specifika big data oblasti plně pokrýt.

Dva praktické scénáře a jejich přínosy

Níže uvádíme dva scénáře, které mohou sloužit jako podklad pro novou strategickou iniciativu ve vaší společnosti. Není přitom rozdíl, zda je implementovat čistě v prostředí „tradičního BI“, či v prostředí big data. To jsou pouze technické faktory, které ovlivňují způsob implementace a integrace.

Metadata management

Co to je „raketa“? Je to sportovní náčiní na tenis? Nebo si pod tímto pojmem představíte meziplanetární raketu a cestu na Měsíc? Obě odpovědi jsou správné, tedy pokud spolu mluvíme stejnou řečí. Se stejným problémem se setkává i uživatel reportů, který jen těžko dokáže odpovědět na zdánlivě jednoduché otázky:

  • Jak je definován aktivní zákazník? Je to počet aktivních SIM karet? Počet účtů v billing systému? Počet fyzických osob a firem registrovaných v CRM systému? Do jaké míry ovlivňuje aktivita zákazníka na síti to, zda ho ještě vnímáme jako aktivního?
  • Proč mám dva reporty a každý z nich udává jiný počet aktivních zákazníků?
  • Jsou údaje o počtu zákazníků vůbec správné? Můžu jim věřit?

Uživatel při nemožnosti získat odpovědi na výše uvedené otázky rezignuje a využívá leckdy pouze omezenou sadu jemu známých reportů. Ovlivňuje to i jeho schopnost dělat zásadní rozhodnutí. Při rozporu údajů v různých reportech je nucen obrátit se na vývojáře, kteří musí provést časově náročnou analýzu, aby vysvětlili rozpory v reportech. Přitom vysvětlení je většinou jednoduché:

  • Položky se v reportech jmenují stejně, ale mají jiný význam. Řešením je centrální byznys slovník s publikovaným popisem významu termínů.
  • Položky v reportech mají sice stejný význam, ale jsou získány nebo spočítány rozdílným způsobem. Toto může vyřešit centrální datový slovník, evidující datové zdroje a jejich transformace.
  • Jaké jsou vlastně reporty, které se vztahují k aktivním zákazníkům? Centrální Report katalog, s aktuálním seznamem reportů a popisem jejich struktury je ideálním zdrojem takovéto informace.

Kvalita dat je základem pro zodpovědné rozhodování, které může zásadně ovlivnit úspěch či neúspěch našich kroků. Klíčem k dosažení této kvality je shodný dorozumívací jazyk všech participujících oddělení, pro všechny stejný význam termínů a samozřejmě snadný přístup ke zdroji informací. V tuto chvíli je tedy třeba zaměřit naši pozornost na nástrojovou podporu metadata managementu a doručit svým uživatelům následující funkce:

  • Jednotný BI portál, umožňující efektivně spolupracovat a sociálně interagovat, jako výkladní skříň pro všechny BI uživatele.
  • V rámci jednotného BI portálu implementovat komponenty byznys slovník, datový slovník a Report katalog.
  • Zajistit integraci těchto komponent na nativní zdroje metadat, tj. například repozitory datových modelů (automatické plnění datového slovníku) či reportingovou platformu (automatická synchronizace seznamu a struktury reportů).
  • Definovat procesy související s řízením životního cyklu metadat, zejména s ohledem na jejich vlastnictví a tzv. „stewardship“.

Uživatelské přínosy:

  • Byznys slovník se plní definicemi významů termínů, které společně používáme.
  • Datový slovník poskytuje komplexní pohled na strukturu dat, které skladujeme a dále využíváme v reportech.
  • Report katalog obsahuje seznam a popis struktury reportů, na základě nichž se v pravidelných pracovních cyklech rozhodujeme.
Trask, ilustrace


Řízení datové kvality

Mohu se spolehnout na to, že report, na jehož základě chci učinit nějaké rozhodnutí, je aktuální? Že data v něm obsažená jsou správná a kompletní? Toto jsou elementární otázky, kde musí mít každý odpovědný uživatel obchodních dat jasno, aby s klidným svědomím mohl řídit svůj byznys. Díky výstupům procesů metadata managementu již mají uživatelé možnost si rozumět. Co ale vědí o samotné kvalitě dat? Případná její neznalost je jistě pro uživatele frustrující. Řešení tohoto nedostatku důvěry je dalším klíčovým tématem, které lze formulovat následujícími požadavky:

  • Uživatel musí mít možnost sledovat aktuální i historickou kvalitu dat v reportech, které používá.
  • Definice kontrol datové kvality i prezentace výsledků jejich měření musí být jednoduchá a přehledná.
  • Celé řešení musí být integrované do jednoho nástroje, tedy uživatel musí mít možnost na jednom místě získat informace, aby svým reportům a datům rozuměl (metadata) i důvěřoval (kvalita dat).

Očekávané řešení je pak následující:

  • V rámci BI portálu doporučujeme implementovat modul pro řízení datové kvality.
  • Tento modul musí umožňovat definici byznys pravidel datové kvality a na jejich základě pak vytvářet konkrétní instance technických kontrol, ideálně automaticky. Samozřejmě se nesmí zapomínat ani na prezentaci výsledků měření, ta musí být též dostupná.
  • Technické kontroly datové kvality jsou platformně-specifické, poplatné použitému technickému řešení. Je vhodné v rámci DQ frameworku připravit sadu předdefinovaných typů kontrol a zajistit podporu jejich automatické instalace a měření na straně ostatních BI aplikací. Doporučujeme soustředit se především na takové dimenze datové kvality, jako jsou včasnost, kompletnost a přesnost dat. Ty mají největší přínos pro uživatele z pohledu dostupnosti dat pro reporting.
  • Samotnou implementaci kontrol je vhodné zahájit v předem vybrané omezené pilotní oblasti (například CRM datové toky).
  • V neposlední řadě je třeba definovat proces i šablonu pro DQA (obdoba SLA v oblasti datové kvality)

Uživatelské přínosy:

  • Cílem je poskytnout uživatelům jednoduchý a přehledný nástroj pro definici, měření a prezentaci výsledků reálných kontrol datové kvality.

Slovo závěrem

Je třeba mít na paměti, že data governance musí především řídit obchodní hodnotu dat zvyšováním jejich dostupnosti, využitelnosti, integrity a bezpečnosti. Tuto dostupnost, využitelnost, integritu a bezpečnost pak musí přímo vnímat samotní koncoví uživatelé dat. Cestou, jak jim tento pocit zajistit, je transparentní implementace potřebných funkcí v oblasti metadata managementu a datové kvality.

Ondřej Stokláska Ondřej Stokláska
Autor článku je manažer pro segment Business Intelligence ve společnosti Trask solutions.
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.

Banner



Inzerce

Nezapomněli jste si prodloužit předplatné časopisu IT Systems?

IT SystemsZačátek nového roku je nejen obdobím, kdy už se pomalu začínají rozplývat mnohá novoroční předsevzetí. Je také obdobím, kdy je třeba provést řadu každoročně se opakujících činností. V případě všech IT manažerů a IT profesionálů by mezi nimi nemělo chybět prodloužení předplatného časopisu IT Systems.