facebook LinkedIN LinkedIN - follow
IT SYSTEMS 3/2005

Jak ušetřit pomocí data profilingu



Plánujete v dohledné době integrační projekt? Nebo chcete objevit skryté informace ve vašich datech? Neexistuje aktuální dokumentace k vašemu datovému modelu? Data profiling vám může pomoci nejen v těchto otázkách.


Pojem data profiling (analýza kvality dat) se stává v dnešní době stále zřetelnějším ve všech oblastech souvisejících s managementem dat, který má za úkol zajistit v daný okamžik uživatelům přesná, kompletní a korektní data za pomoci nastavení relevantních firemních procesů. Díky data profilingu analyzujeme nejen obsah, kvalitu a strukturu, ale také vzájemnou propojenost vstupních dat. Představte si například, že si potřebujete ověřit adresy svých zákazníků. Vycházíme z logické úvahy, že pro dané PSČ by mělo existovat pouze jedno město. Použitím data profilingu jsme schopni během pár minut ověřit tuto hypotézu pro databázi obsahující milion záznamů, což už je úctyhodný výkon. V rámci jedné analýzy ale můžeme ověřit mnohem více informací, jako například rozložení unikátních nebo nulových hodnot v jednotlivých polích, překlepy, např. zda má PSČ pouze numerické hodnoty, a mnoho dalších.

Data profiling poskytuje podnikům obrovské možnosti porozumět stavu jejich dat již předtím, než vůbec zahájí integrační projekt nebo implementaci procesů kvality dat. Tento přístup může výrazně snížit čas a úsilí a zároveň zvýšit šance na úspěch projektu.

Doug Laney, Vicepresident, Application Delivery Strategies, META Group


Data profiling a kvalita dat
S oblastí data profilingu se můžeme setkat v rámci problematiky kvality dat, která je nedílnou součástí již zmíněného managementu dat. V rámci kvality dat je jasně nastavena a nadefinována metodologie, která je používaná všemi dodavateli napříč tímto spektrem působnosti. A protože nemůžeme zlepšovat, co neumíme měřit, data profiling objeví problémy v datech, které mohou sloužit jako metriky pro proces zlepšování kvality dat a její následné inspekce. Data profiling představuje vstupní bránu k procesům kvality dat, ale zároveň lze jeho analýz a reportů využít pro jakékoliv vnitropodnikové účely. Řešení data profilingu automaticky vytvoří centrální znalostní databázi o vašich datech (metadata). Tato znalostní databáze pomůže analytikům odhalit anomálie v datech, jejich nekonzistenci, chybějící nebo duplikátní data atd.

Součást integračních aktivit
Víte, že podle studie Standish Group není úspěšných 88 % veškerých integračních aktivit zejména kvůli primární neznalosti dat? V následujícím příkladu si ukážeme, jak může data profiling snížit riziko neúspěchu projektu datové integrace. V mnoha společnostech existuje nepřeberné množství nejrůznějších informací - o zákaznicích, produktech, data logistická, operační, finanční... Typický projekt datové integrace zahrnuje tři základní fáze (obr. 1): analýzu a design, fázi build (tvorba mapovacích pravidel) a v neposlední řadě fázi load and test.


Obr. 1: Schéma procesu datové integrace


Analýza a design je prvním krokem v rámci každého integračního projektu. V mnoha případech jsou analýza zdrojových dat a design cílového datového modelu postaveny na interpretaci relevantní dokumentace, schémat a vzorku dat z vybraných zdrojových systémů. Výstupy z této fáze obsahují především mapovací specifikace, kde jsou zdokumentovaná pravidla, podle kterých se budou vstupní data transformovat, aby splnila požadavky cílového systému. Fáze Build představuje využití ETL nástroje a tam, kde je potřeba, i nástroje na čištění dat. Nástroje ETL v sobě mají zakomponovanou omezenou funkcionalitu pro zlepšení kvality dat, někdy je však zapotřebí použití specializovaného nástroje s vyšší přidanou hodnotou (např. verifikace adresních a jmenných údajů, householding, deduplikace, ...) Finální fáze zahrnuje testovací aktivity a load (nalití dat do cílového systému). Zde by měla být zkontrolována a otestována nejen mapovací specifikace, ale také požadovaná kvalita dat. Je všeobecně známo, že v této fázi je objeveno nejvíce problémů, kdy se v mnoha případech musíme vrátit až do první fáze analýzy a designu pro úspěšné vyřešení objeveného defektu. Nemusíme diskutovat o rozdílech dopadu nalezení defektů v pozdní fázi projektu, čím později se v životním cyklu projektu defekt objeví, tím je jeho fixace dražší. A jak zde může pomoci data profiling? Je to zcela jednoduché - pokud použijeme vhodné nástroje data profilingu v první a poslední fázi projektu, můžeme až o polovinu rychleji a především spolehlivěji zpracovat vstupní data a tím jednak odhadnout spolehlivě pracnost build fáze, ale také ověřit správnost výstupů z fáze ETL. Použitím odborného nástroje na data profiling snižujeme nejen riziko neúspěchu daného projektu, ale také především šetříme jeho finanční rozpočet.

Co bychom měli požadovat?
Pokud jsme vás přesvědčili o výhodách specializovaného nástroje, podívejme se na nabídku trhu. V dnešní době se vyskytuje stále více dodavatelů, kteří buď nabízejí funkcionalitu data profilingu jako součást celkového řešení kvality dat, anebo jako samostatný nástroj, ovšem s podstatně širším záběrem. Mezi hlavní hráče na tomto trhu patří například Trillium Software, Ascential, Evoke Software, DataFlux.
A jaké bychom měli mít hlavní požadavky při výběru nástroje?
· schopnost načíst a analyzovat data z různých platforem, technologií, (ne)relačních databází, flat souborů,
· schopnost analýzy velkého množství dat (terabajty),
· existence jednotného datového skladu, ve kterém jsou uloženy definice dat spolu s jejich statistikami,
· schopnost uchování si všech dat, která byly již zanalyzovány,
· profilace nejen jednotlivých atributů, ale i daného zdroje, identifikace potenciálních primárních (a cizích) klíčů a vzájemných závislostí mezi atributy,
· analýza závislostí i mezi různými heterogenními zdroji navzájem,
· identifikace nesrovnalostí mezi daty a jejich schématy, automatické generování relevantních reportů, notifikace relevantního vlastníka dat,
· existence user-friendly uživatelského rozhraní jak pro IT pracovníky, tak pro analytiky,
· schopnost exportu dat, metadat a reportů do jiných nástrojů.

Zde je samozřejmě pouze základní výčet požadavků, které by měl splňovat daný nástroj, aby se zhodnotila investice na jeho pořízení. Závěrem můžeme dodat, že data profiling si podobně jako oblast kvality dat stále hledá své místo na slunci, ale rozhodně má budoucnost zvláště v našich podmínkách, kdy mnoho společností potřebuje přestěhovat data ze zastaralých systémů do nových, anebo se snaží o zkvalitnění služeb zákazníkům také prostřednictvím existence kompletních a korektních dat.

Helena Rozehnalová, konzultant skupiny Data Quality Services ze společnosti Profinit.
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.


Inzerce

7 vlastností ERP systému, které dělají uživatelům radost

Kdy je ovládání ERP systému poho­dl­né? Když mohou jeho uživatelé snadno a efektivně pracovat s potřebnými funkcemi a informacemi bez zbytečných obtíží. Tím se zvýší produktivita jejich práce, omezí se chybovost a firma poroste.