facebook LinkedIN LinkedIN - follow
IT SYSTEM 6/2004

Proces řešení kvality dat

Ing. Marek Novotný


V každé společnosti působící dlouhodobě na trhu vzniká velké množství dat ukládaných do různých provozních transakčních systémů. Tato data mají zpravidla velmi různou kvalitu, což může v mnoha případech možnost jejich dalšího analytického využití výrazně snížit, nebo ji dokonce vyloučit. Proces řešení kvality dat je snaha o zvyšování kvality dat pomocí automatizovaných, specializovaných metodologií a aplikací, tak aby výsledky následných analýz nebyly zatíženy příliš velkými chybami a bylo je možné dále využívat pro rozhodovací a řídící procesy.





Datová kvalita je zaměřena na určitou část informační kvality, a to kvalitu dat uvnitř databází jednotlivých systémů. Její účinnost se tak omezuje pouze na jednotlivé systémy. Pokud se chceme zabývat problematikou kvality dat napříč podnikem se zaměřením na všechny komponenty, pak hovoříme o "informační kvalitě".
Informace je tvořena třemi základními komponentami:
· data,
· definice,
· prezentace.

Informační kvalita se zabývá kvalitou všech těchto komponent, a to napříč organizací, a zároveň se zaměřuje na kvalitu informací požadovanou jednotlivými skupinami koncových uživatelů. Informační kvalita je mnohde přehlíženým problémem, avšak problémy s informační kvalitou je možné identifikovat v každé organizaci. Nekvalitní informace uložené v produkčních systémech mají dopad na kvalitu rozhodovacích procesů organizace. Důvod, proč organizace nevěnují pozornost problematice informační kvality, je ten, že ne plně doceňují objem finančních nákladů na správu nekvalitních informací, resp. jejich dopadů do procesů společnosti apod. Specialisté v oblasti informační kvality se přitom shodují na tom, že náklady na nekvalitní informace mohou dosáhnout 15-20 % zisku organizace. Některé organizace se snaží s problematikou kvality dat určitým způsobem vypořádat. Jejich řešení je založeno na sledování kvality dat v databázích, přičemž jejich přístup je zpravidla jednorázový, neboť se domnívají, že problematiku "kvality dat" je možné vyřešit během jednoho projektu. Bohužel je nutné konstatovat, že informační kvalita se nedá řešit jednorázovým projektem a její řešení je založeno na neustálém zlepšování. Na druhé straně jsou organizace, které se snaží realizovat problematiku datové kvality prostřednictvím některého z nástrojů informační kvality, jako např. Trillium Software, Similarity Systems, FirstLogic, Innovative Systems apod. Bohužel i zde je nutné konstatovat, že problematika informační kvality se nedá řešit pouhou implementací některého z nástrojů informační kvality, protože tyto nástroje nejsou schopny pokrýt některé systémové zdroje chyb, např. oblast nesprávně fungujících obchodních procesů.

Hlavní problémy v datech provozních systémů
Na základě dosavadní praxe a realizace projektů datové kvality patří mezi nejčastější datové defekty:
· překlepy,
· nepřesné nebo neúplné adresní i další údaje shromažďované o zákaznících a poskytovaných službách,
· data zapsaná do nesprávných datových položek,
· duplicitní evidence napříč různými systémy,
· nekonzistence v datech.

Příčin vzniku těchto defektů je několik. Souvisejí například se zakládáním dat do systému a kontrolními mechanismy v rámci aplikace.

Důsledky nekvalitních dat
Problémy v datech se samozřejmě promítají nejen do přímého zvýšení nákladů společnosti (viz náklady na nekvalitní informace zmíněné v úvodu), ale i přímo do obchodních a řídících procesů. Nejčastější důsledky nekvalitních dat, a tím i z nich vytvářených informací, jsou:
· neúplné nebo chybné podklady pro rozhodování,
· rozdílné hodnoty stejných ukazatelů reportovaných z různých systémů,
· neefektivní marketingové kampaně,
· nedoručené účty a další zásilky,
· vícenásobně doručené zásilky,
· selhávání obchodních procesů,
· růst nákladů na kompenzace problémů,
· prodloužení odezvy provozních systémů

Systémové řešení problematiky informační a datové kvality
Systémovým řešením problematiky informační a datové kvality rozumíme nasazení takových prostředků, které zabezpečí zahájení dlouhodobých procesů zvyšování kvality dat a informací a které postihnou nejen stávající, ale i budoucí informační systémy nasazované ve společnosti. Kroky vedoucí k vytyčenému cíli jsou:

1. Zpracování a zavedení celopodnikové metodiky na zajištění informační kvality;

2. Zapojení nástroje na řízení kvality dat v:
· provozních systémech,
· ETL procesech,
· CRM a ERP systémech,
· integraci dat (např. data warehouse, analytické CRM).

Řešení kvality dat
Proces řešení datové kvality je zpracováním souboru dat, jehož výsledkem je soubor určený pro import na určené místo. Tím může být buď původní zdrojový systém, nebo systém navazující v toku zpracování dat, např. datový sklad. Proces řešení kvality dat je ilustrován na obrázku č. 1.

V následující části vás seznámíme s jednotlivými kroky procesu kvality dat. K jeho vysvětlení použijeme příkladů.

Analýza a normalizace dat
Prostřednictvím procesu "analýza a normalizace dat" zjišťujeme stav kvality dat. Analýza spočívá ve zjišťování různých datových defektů, přičemž tyto pak budou v dalších krocích řešeny tak, abychom dostali na výstupu (tj. před jejich dalším použitím) data s vyšší kvalitou. Během procesu analyzujeme, zda a jak jsou vyplněny jednotlivé atributy, formáty apod. Všechny tyto analýzy však musí být prováděny v souladu s obchodními pravidly společnosti. Současně s tímto je prováděna standardizace vstupních dat, např. normalizace zkratek, konverze na kapitálky apod. (tab. 1).

Vstup Výstup
novák Fŕntišek; RČ 05 06 1972
#praha 18000 Sokloovskă 13
Novák Frntišek RČ 05 06 1972
Praha 18000 Sokloovská 13
Ćeska SPOritelna?
OLBRACHtova ? 62 1929?
Prha
Česká sporitelna
Olbrachtova 62 1929
Prha
Na Manninach 876
Praha
~Avon SRO~
IČO: neuvedeno
Na Manninach 876
Praha
Avon SRO
Tabulka 1: Příklad normalizace dat


Standardizace dat
V rámci standardizace dat provádíme rozpoznávání jednotlivých položek a jejich případné ukládání do správných polí. Jedná se o velice významnou část procesu kvality dat, neboť všechny ostatní kroky, včetně procesu deduplikace (odstranění duplicitních záznamů) závisí na kvalitě tohoto procesu (tab. 2). Během standardizace se provádí rozpoznání a roztřídění datových položek na základě znalostní báze, identifikace chyb v datech, aplikace podnikových datových standardů a příprava dat na sémantickou analýzu.

Vstup Výstup
Novák Frntišek RČ 05 06 1972
Praha 18000 Sokloovská 13
František Novák
Narozen: 05 06 1972
Sokolovská 13
Praha 180 00
Česká sporitelna
Olbrachtova 62 1929Prha
Česká spořitelna
Olbrachtova 62 1929
Praha
Na Manninach 876
Praha
Avon SRO
Avon s.r.o.
Na Maninách 876
Praha
Tabulka 2: Příklad standardizace dat.


Doplnění dat
Spočívá v rozpoznání a doplnění chybějících částí adresy. Podmínkou pro úspěch této činnosti je validní znalostní báze obsahující všechny české adresy.

Vstup Výstup
František Novák
Narozen: 05 06 1972
Sokolovská 13
Praha
180 00
František Novák
Narozen: 05 06 1972
Sokolovská 13/1200
Praha 8180 05
Česká spořitelna
Olbrachtova 62 1929
Praha
Česká spořitelna, a.s.Olbrachtova 1929/62
Praha 4140 00
Avon s.r.o.
Na Maninách 876
Praha Avon
s.r.o.Na Maninách 876/7
Praha 7170 00
Tabulka 3: Příklad doplnění dat

Sloučení, porovnání, deduplikace dat
Spočívá v porovnání záznamů mezi sebou na základě shodnosti a podobnosti. Dle pravidel pro porovnávání je vypočtena míra shodnosti a provedeno rozhodnutí o shodě nebo neshodě kandidátů na ztotožnění. Výsledkem je odstranění duplicit a získání deduplikovaných dat.

Vstup Výstup
Čes. spořitelna, a.s.
Olbrachtova
140 00 Praha 4
IČO: 45244782
Česká spořitelna, a.s.
Olbrachtova 1929/62
140 00 Praha 4
IČO: 45244782
Česká spořitelna a.s.
Olbrachtova 1929/62140 00 Praha 4
IČO:nezadáno
Tabulka 4: Sdružování záznamů v rámci jednoho systému


Validace oproti obchodnímu rejstříku a registru adres
V předcházejících krocích jsme popsali proces kvality dat, který jsme aplikovali na jmenné a adresní údaje. Samozřejmě, že kvalita dat se také dotýká tzv. neadresních dat, která z pohledu podnikání organizace představují významnější část. Tato data můžeme shrnout pod pojem "obchodní" data. Mnohé procesy kvality dat je možné realizovat velice efektivně prostřednictvím nástrojů kvality dat, přičemž jejich přínosy jsou v automatizaci procesu validace dat a zároveň v tom, že tyto validace je možné provést v krátkém čase na velkém objemu dat, což není v případě manuálních korekcí možné.

Vstup Výstup
Avon s.r.o.
Na Maninách 876/7
Praha 7
170 00
AVON Cosmetics spol. s r.o.
IČ: 00571989
Na Maninách 876/7
Praha 7
170 00
Tabulka 5: Validace neadresních dat


Inzerce

Modernizace IS je příležitost přehodnotit způsob práce

IT Systems 4/2025V aktuálním vydání IT Systems bych chtěl upozornit především na přílohu věnovanou kybernetické bezpečnosti. Jde o problematiku, které se věnujeme prakticky v každém vydání. Neustále se totiž vyvíjí a rozšiřuje. Tematická příloha Cyber Security je příležitostí podívat se podrobněji, jakým kybernetickým hrozbám dnes musíme čelit a jak se před nimi můžeme chránit. Kromě kybernetické bezpečnosti jsme se zaměřili také na digitalizaci průmyslu.