facebook LinkedIN LinkedIN - follow
Big Data a Business Intelligence , AI a Business Intelligence

Master data management v kapse, v bance, v budoucnosti...

Michal Čech


AdastraMaster data management je všude kolem nás, jen si to často nepřipouštíme. Neřeší ho jen velké organizace, které zpracovávají mnoho dat, ale každý člověk ve svém každodenním životě. Nevěříte? Třeba vás přesvědčím.


Jedna z mnoha definic master data managementu říká, že jde o snahu organizace vytvořit jediný a hlavní referenční zdroj pro všechna důležitá obchodní data, což vede k méně chybám a méně redundancím v obchodních procesech. Velmi zajímavá je ale otázka, co to konkrétně představuje v praxi. Je mnoho způsobů, jakými lze master data management přiblížit. Ideální je usadit problematiku do oblasti, ve které se všichni dobře orientují. V dnešní době má skoro každý z nás mobilní telefon, tak zbývá jen zjistit, zda jsou i zde nějaké problémy, které by mohlo řešit MDM v kapse. Přesuňme se ale k MDM v bance. Na základě získaných informací se pobavíme obecně o MDM oblastech a na závěr si trochu zaspekulujeme o tom, jak by mohlo vypadat MDM v budoucnosti.

MDM v kapse neboli v mobilu

Položme si základní otázku: jaká data máme ve svém mobilním telefonu? Dnes už skoro všechna, takže je spíš jednodušší odpovědět, jaká data tam ještě nemáme. Pojďme se tedy podívat na úplný základ. Telefon v dobách svého mládí sloužil především k telefonování. Zaměřme se jen na telefonní čísla a informace s nimi spojené.

Telefonní kontakt se vyvíjel. V době, kdy existovaly jen pevné telefony, jste potřebovali „externí kartotéku,“ v níž byly abecedně řazeni vlastníci telefonního čísla a samotné číslo. Časy se mění, klasický bloček u telefonu a telefonní seznam v každé telefonní budce si pamatuje čím dál méně z nás. S nástupem mobilních telefonů se tyto informace začaly uchovávat přímo v přístroji a tím se začala psát historie elektronické správy dat. Zpočátku byl prostor pro popis telefonního čísla značně omezen na pár znaků. Neexistovalo rozlišování jednotlivých atributů, jako jsou jména, příjmení, adresy, e-maily atd. Všechna data jste měli uložená na telefonní kartě (SIM). Kontaktů mohlo být jen omezené množství (řádově stovky).

Časem jste si pořídili mobil, který umožňoval kontakty uchovávat přímo v paměti telefonu, takže dokázal zobrazit kontakty ze dvou zdrojů dat najednou. Vy jste původní kontakt na dědečka rozšířili o jméno a příjmení a datum narození. Někdo si původní kontakt na SIM kartě ponechal, někdo ne. Dědeček zavolal a na některých telefonech se objevilo, že volá dědeček, na jiných že volá Novák František. To, že dědeček je František Novák, jste bohužel věděli jen vy, a ne přístroj sám. Následně dědeček přešel k jinému telekomunikačnímu operátorovi, a tím si změnil telefonní číslo. Zapomněl vám to říct, ale naštěstí jeho nové číslo znala vaše manželka a zaslala vám ho jako vizitku. Vizitka zněla na jméno Děda Franta. Vy jste si ji rychle naimportoval a volal dědovi. Konsolidaci jste si nechali na později. Jak šel čas, tak vám Android nabídl efektivně zálohovat svoje kontakty do cloud úložiště, tak jste tuto službu přivítali a pravidelně zálohovali. Velmi praktické se ukázalo použít stejné centrální úložiště, když jste si pořídili další SIM do automobilu.

MDM v mobilu
MDM v mobilu

Bohužel jednoho dne vám telefon spadl na zem a už nenaběhl. V tu chvíli jste byli šťastni, že máte kontakty uložené centrálně v cloudu. Už méně nadšeni jste ale byli, když jste zjistili, že po každé obnově z úložiště se vám v telefonu záznamy duplikují. Na chvilku vás napadlo ručně spravit telefonní seznam, ale to jen na chvilku. Více času jste strávili hledáním vhodné aplikace na deduplikaci kontaktů na AppStoru. Zjistili jste, že v zásadě existují dva typy aplikací. Jedna na jednorázovou opravu dat a druhá, která online nabízí deduplikovaný seznam. Tu první je nutné spouštět v pravidelných intervalech. Většinou až míra anarchie přeroste únosnou hranici. Ta druhá dělá vše online za vás, leč je pomalejší a hlavně jiná. Automatika na deduplikaci zafungovala pěkně u 90 % záznamů. U zbylých 10 % záznamů byste rádi sloučení zrušili nebo provedli jinak.

Stárnutí a obohacování kontaktů

Čím déle telefon a telefonní kontakty máte, tím více vás začíná trápit stárnutí dat. Některé kontakty jsou živé, jiné méně a některé jsou již dávno mrtvé. Bylo by fajn, aby telefonní seznam vedl statistiku o volání pro daný kontakt a indikoval stárnutí kontaktů. Zajímavou funkcí by byla i preference určitého telefonního kontaktu podle doby, kdy byla daná osoba dostupná. Firemní telefonní číslo by se automaticky volilo pro pracovní časy. Číslo na pevnou linku na vaši babičku by se nevybíralo ve čtvrtek odpoledne, kdy chodí na kafíčko s kamarádkou do cukrárny.

Totéž platí o automatickém obohacování kontaktů o nové atributy (LinkedIn, Google+, Skype, Slack, E-mail, WhatsApp, Otevírací doba, Adresa...). Bohužel, v současné době je to spíše hudba budoucnosti. Funkce na automatickou synchronizaci telefonního seznamu mezi přáteli a rodinnou si dokáži již nyní představit. Jde jen o rozšíření služeb pro cloudové úložiště. Avšak otázkou u externích služeb je bezpečnost a také to, jak je - a hlavně bude - možné s daty nakládat.

MDM v bance

Zatímco se MDM problémy běžného smrtelníka dají pohodlně strčit do kapsy u kalhot, musí velké organizace řešit podobné problémy v úplně jiném rozměru. Kapsa u kalhot jim rozhodně nestačí. Místo stovek kontaktů zpracovávají desítky milionů kontaktů z desítek interních systémů. Musí se věnovat bezpečnosti jak směrem ven, tak dovnitř organizace. Směrem ven se řeší samotný přístup k datům. Směrem dovnitř zase způsob nakládání s daty. MDM problematika se často probírá na úrovni mateřské společnosti a jednotlivých dceřiných společností. Jedna data se tak nacházejí v mnoha systémech a v mnoha podobách. A pak se často stává, že takto redundantní data nejsou konzistentní – buď z hlediska obsahu nebo času.

MDM v bance
MDM v bance

Oblasti MDM

Nyní se pojďme podívat, jakých oblastí MDM jsme se dotkli a jak se dají řešit. Problematiku MDM můžeme rozdělit do čtyř základních oblastí (mastering, quality, integration a data discovery). Každá oblast se dá popsat několika způsoby užití. My se budeme vracet konkrétně k předchozímu příkladu s telefonním seznamem.

Aby bylo možné nasadit MDM řešení, je nutné nejdříve zjistit, jaká data a v jakých systémech vlastně máme k dispozici. Tomu se věnuje data discovery. Jakmile to víme, chceme data dostat na jedno společné místo, kde je můžeme analyzovat. To je úkol pro datovou integraci. A nyní se začínáme zajímat o kvalitu získaných dat. Kvalitu nejdříve monitorujeme podle určitých kritérií, následně se ji snažíme buď manuálními nebo automatizovanými úpravami zvýšit. Nyní máme splněny všechny předpoklady pro to, abychom se mohli věnovat masteringu dat. Mastering bez kvalitních dat na centrálním místě totiž nemá šanci na úspěch. Masterovaná data slouží jako referenční zdroj pro ostatní systémy. K masterovaným datům je možné přidat další data, tzv. metadata, která říkají, jak s těmito daty nakládat.

Oblasti MDM
Oblasti MDM

Discovery

Data discovery je disciplína, která umožní více poznat data, nad kterými chceme MDM provádět. Úkolem data discovery je také určit, v jakých systémech se která data nacházejí. Dalo by se říct, že každý svá data dobře zná. Ale opak je pravdou. Automatická data discovery je schopna určit nejen základní datové typy (string, číslo, boolean, datum, čas), ale i o úroveň vyšší datové typy, jakou jsou jméno, ulice, telefon, PSČ, druhý telefon, e-mail. Pomocí datového profilingu, založeného na frekvenční analýze a histogramech, je možné získat různé informace o hodnotách.

Základní oblasti MDM – discovery
Základní oblasti MDM – discovery

Integration

Pro zavedení procesů MDM je nezbytné, aby byla všechna data centrálně uložena. Discovery tedy v první fázi poskytne informace o tom, v jakých systémech data jsou, a tato data se následně pomocí integrace „dopraví“ na jedno místo pro další využití. Dochází k integraci vstupních dat z různých systémů využívajících různé platformy (Windows, Linux, iOS, Android), které poskytují různé technologie (webové služby, REST API, SQL, CSV, MS Excel) v různých fragmentech (přírůstek, plný snímek). Celý proces přesunu dat je nutné řídit, protože se data poskytují v různých intervalech a jsou na sobě závislá. Proces řízení musí být monitorován a výsledky auditovány.

Základní oblasti MDM – integration
Základní oblasti MDM – integration

Quality

Operace masteringu předpokládají, že záznamy, se kterými pracují, mají určitou datovou kvalitu. Nekvalitní data totiž mohou výsledky masteringu značně zhoršit. Úroveň kvality je nutné vyhodnocovat podle pravidel, následně ji vylepšovat, a to buď manuálně, nebo automatizovaně:

  • Překlepy – v dnešní době je zcela běžné identifikovat překlepy pomocí slovníků.
  • Diakritika – korekce diakritiky nebo velkých malých písmen patří mezi elementární problémy datové kvality.
  • Čísla – špatně zapsané číselné kódy lze kontrolovat podle matematických vzorců.
  • Datum a čas – datumové a časové položky lze vyhodnocovat a následně korigovat podle obsahu (24:15) nebo formy (23_15).
  • Výčet – výčtové hodnoty lze vyhodnocovat pomocí číselníků.
  • Adresa – komplexní datové struktury, jako je adresní bod, je možné vyhodnotit vůči externím datovým zdrojům, které představuje datový registr.

Každé vyhodnocení kvality představuje hodnotu, která říká, jak je daný záznam kvalitní a jak je možné s tímto záznamem nakládat v následných procesech. Hodně nekvalitní záznam může úplně změnit pohled například na výsledný mastering.

Základní oblasti MDM – quality
Základní oblasti MDM – quality

Mastering

Mastering dat se zabývá tím, jak data z různých zdrojů (SIM karta, paměť telefonu, firemní telefonní seznam, SMS vizitky, záloha...) konsolidovat, aby ve výsledku poskytl jednotný pohled na záznamy pro okolní systémy. Konsolidace dat se týká vždy konkrétní domény (telefon, kontakt, adresa, firma...). V masteringu se vytvářejí skupiny jednotlivých záznamů, které si jsou velmi blízké. Blízkost záznamů se určuje pomocí atributů definovaných nad danou doménou. Např. pro naši doménu telefonní kontakt jde o atributy telefonní číslo, jméno, příjmení, titul, rodné číslo, příp. IČO. Jednotlivé atributy nesou informace s určitou kvalitou a podle vyhodnocení kvality jednotlivých atributů se vytváří reprezentant pro danou doménu. Pro danou skupinu ale může existovat více reprezentantů. Nejlepší reprezentant se často označuje jako zlatý záznam neboli ideální záznam, který se použije pro propagaci do dalších systémů nebo zpracování. Uživatel mobilního telefonu by tedy měl pracovat jen se zlatými záznamy.

Princip masteringu a zlatý záznam
Princip masteringu a zlatý záznam

U zlatých záznamů se vždy usiluje o to, aby byly jednoduše vyhledatelné a editovatelné. Uživatel by měl být schopen upravit nejen definici pravidel vytváření domén, ale i definici pro tvorbu zlatého záznamu. Zlaté záznamy se dají organizovat v různých hierarchiích a sdílet s ostatními uživateli.

Základní oblasti MDM – mastering
Základní oblasti MDM – mastering

MDM v budoucnosti

Pojďme se přenést do budoucnosti. Přesněji do doby, kdy bude automatizace a poskytování služeb na denním pořádku a přitom budou programy vytvářet stále lidé. Prostě někam mezi současnost a éru Skynetu. Jak by MDM mohl probíhat?

Dodavatel k zákazníkovi fyzicky přinese MDM zařízení a položí jej doprostřed místnosti. Místní IT povolí zařízení přistoupit do interní sítě, a to začne fungovat jako men-in-the-middle. Zařízení začne na síťové vrstvě naslouchat firemnímu provozu a identifikovat další zařízení fyzické infrastruktury, jako jsou jednotlivé servery, tiskárny atd. Po nějaké době začne na základě protokolů určovat jednotlivé aplikace a jejich verze. Na závěr systém aplikace zjistí strukturu a obsah posílaných dat, která proudí mezi jednotlivými aplikacemi.

MDM budoucnosti
MDM budoucnosti

Systém automaticky vytvoří data lake a business glossary, která mohou využívat další systémy, jako je např. GDPR nebo anonymizace dat. Navíc umí např. monitorovat datovou kvalitu jednotlivých dat a dávat doporučení na její zvýšení (doporučení by dával modul realizovaný umělou inteligencí). Následná konsolidace dat a mastering je pak vcelku jednoduchá úloha. Systém připraví návrhy na sloučení instancí. Následně je jen třešničkou na dortu úprava výstupního toku dle udělených souhlasů. Mezi zdroj a cíl by se vložil prvek, který automaticky upravuje jak datovou kvalitu, tak mastering, aniž by bylo nutné upravovat data ve zdrojovém systému. Takže odpadá nutnost upravovat primární a cílový systém. Automatická integrace na síťové vrstvě umožní systém jak jednoduše přidat, tak odebrat.

Takováto implementace MDM do IT ekosystému organizace by umožnila nenásilnou dodávku v podobě služby. Pokud se vám tento případ zdá jako příliš daleká budoucnost, věřte, že už takto fungují IT útočníci i antivirové systémy. Obě skupiny ale využívají „poslouchání“ provozu na síti jako prostředku k dosažení jiných cílů, ne k získání metadat a data exploration.

Michal Čech Michal Čech
Autor článku je konzultantem ve společnosti Adastra, kde působí už od roku 2003. Zpočátku se věnoval oblasti datových skladů, později se zaměřil na problémy datové integrace a datovou kvalitu, kterým se následně plně věnoval ve firmě Ataccama. Z Ataccamy se po šesti letech vrátil zpět do Adastry, kde se věnuje komplexní problematice MDM.
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.

Inzerce

Modernizace IS je příležitost přehodnotit způsob práce

IT Systems 4/2025V aktuálním vydání IT Systems bych chtěl upozornit především na přílohu věnovanou kybernetické bezpečnosti. Jde o problematiku, které se věnujeme prakticky v každém vydání. Neustále se totiž vyvíjí a rozšiřuje. Tematická příloha Cyber Security je příležitostí podívat se podrobněji, jakým kybernetickým hrozbám dnes musíme čelit a jak se před nimi můžeme chránit. Kromě kybernetické bezpečnosti jsme se zaměřili také na digitalizaci průmyslu.