- Přehledy IS
- APS (20)
- BPM - procesní řízení (22)
- Cloud computing (IaaS) (10)
- Cloud computing (SaaS) (33)
- CRM (51)
- DMS/ECM - správa dokumentů (20)
- EAM (17)
- Ekonomické systémy (68)
- ERP (80)
- HRM (27)
- ITSM (6)
- MES (32)
- Řízení výroby (36)
- WMS (29)
- Dodavatelé IT slueb a řeení
- Datová centra (25)
- Dodavatelé CAD/CAM/PLM/BIM... (39)
- Dodavatelé CRM (33)
- Dodavatelé DW-BI (50)
- Dodavatelé ERP (71)
- Informační bezpečnost (50)
- IT řeení pro logistiku (45)
- IT řeení pro stavebnictví (26)
- Řeení pro veřejný a státní sektor (27)
Tematické sekce
ERP systémy
CRM systémy
Plánování a řízení výroby
AI a Business Intelligence
DMS/ECM - Správa dokumentů
HRM/HCM - Řízení lidských zdrojů
EAM/CMMS - Správa majetku a údrby
Účetní a ekonomické systémy
ITSM (ITIL) - Řízení IT
Cloud a virtualizace IT
IT Security
Logistika, řízení skladů, WMS
IT právo
GIS - geografické informační systémy
Projektové řízení
Trendy ICT
E-commerce B2B/B2C
CAD/CAM/CAE/PLM/3D tiskBranové sekce
![]() | |
| Přihlaste se k odběru newsletteru SystemNEWS, který kadý týden přináí výběr článků z oblasti podnikové informatiky | |
![]() | |
Partneři webu
IT SYSTEM 6/2004
Proces řeení kvality dat
Ing. Marek Novotný
V kadé společnosti působící dlouhodobě na trhu vzniká velké mnoství dat ukládaných do různých provozních transakčních systémů. Tato data mají zpravidla velmi různou kvalitu, co můe v mnoha případech monost jejich dalího analytického vyuití výrazně sníit, nebo ji dokonce vyloučit. Proces řeení kvality dat je snaha o zvyování kvality dat pomocí automatizovaných, specializovaných metodologií a aplikací, tak aby výsledky následných analýz nebyly zatíeny příli velkými chybami a bylo je moné dále vyuívat pro rozhodovací a řídící procesy.
Datová kvalita je zaměřena na určitou část informační kvality, a to kvalitu dat uvnitř databází jednotlivých systémů. Její účinnost se tak omezuje pouze na jednotlivé systémy. Pokud se chceme zabývat problematikou kvality dat napříč podnikem se zaměřením na vechny komponenty, pak hovoříme o "informační kvalitě".
Informace je tvořena třemi základními komponentami:
ˇ data,
ˇ definice,
ˇ prezentace.
Informační kvalita se zabývá kvalitou vech těchto komponent, a to napříč organizací, a zároveň se zaměřuje na kvalitu informací poadovanou jednotlivými skupinami koncových uivatelů. Informační kvalita je mnohde přehlíeným problémem, avak problémy s informační kvalitou je moné identifikovat v kadé organizaci. Nekvalitní informace uloené v produkčních systémech mají dopad na kvalitu rozhodovacích procesů organizace. Důvod, proč organizace nevěnují pozornost problematice informační kvality, je ten, e ne plně doceňují objem finančních nákladů na správu nekvalitních informací, resp. jejich dopadů do procesů společnosti apod. Specialisté v oblasti informační kvality se přitom shodují na tom, e náklady na nekvalitní informace mohou dosáhnout 15-20 % zisku organizace. Některé organizace se snaí s problematikou kvality dat určitým způsobem vypořádat. Jejich řeení je zaloeno na sledování kvality dat v databázích, přičem jejich přístup je zpravidla jednorázový, nebo se domnívají, e problematiku "kvality dat" je moné vyřeit během jednoho projektu. Bohuel je nutné konstatovat, e informační kvalita se nedá řeit jednorázovým projektem a její řeení je zaloeno na neustálém zlepování. Na druhé straně jsou organizace, které se snaí realizovat problematiku datové kvality prostřednictvím některého z nástrojů informační kvality, jako např. Trillium Software, Similarity Systems, FirstLogic, Innovative Systems apod. Bohuel i zde je nutné konstatovat, e problematika informační kvality se nedá řeit pouhou implementací některého z nástrojů informační kvality, protoe tyto nástroje nejsou schopny pokrýt některé systémové zdroje chyb, např. oblast nesprávně fungujících obchodních procesů.
Hlavní problémy v datech provozních systémů
Na základě dosavadní praxe a realizace projektů datové kvality patří mezi nejčastějí datové defekty:
ˇ překlepy,
ˇ nepřesné nebo neúplné adresní i dalí údaje shromaďované o zákaznících a poskytovaných slubách,
ˇ data zapsaná do nesprávných datových poloek,
ˇ duplicitní evidence napříč různými systémy,
ˇ nekonzistence v datech.
Příčin vzniku těchto defektů je několik. Souvisejí například se zakládáním dat do systému a kontrolními mechanismy v rámci aplikace.
Důsledky nekvalitních dat
Problémy v datech se samozřejmě promítají nejen do přímého zvýení nákladů společnosti (viz náklady na nekvalitní informace zmíněné v úvodu), ale i přímo do obchodních a řídících procesů. Nejčastějí důsledky nekvalitních dat, a tím i z nich vytvářených informací, jsou:
ˇ neúplné nebo chybné podklady pro rozhodování,
ˇ rozdílné hodnoty stejných ukazatelů reportovaných z různých systémů,
ˇ neefektivní marketingové kampaně,
ˇ nedoručené účty a dalí zásilky,
ˇ vícenásobně doručené zásilky,
ˇ selhávání obchodních procesů,
ˇ růst nákladů na kompenzace problémů,
ˇ prodlouení odezvy provozních systémů
Systémové řeení problematiky informační a datové kvality
Systémovým řeením problematiky informační a datové kvality rozumíme nasazení takových prostředků, které zabezpečí zahájení dlouhodobých procesů zvyování kvality dat a informací a které postihnou nejen stávající, ale i budoucí informační systémy nasazované ve společnosti. Kroky vedoucí k vytyčenému cíli jsou:
1. Zpracování a zavedení celopodnikové metodiky na zajitění informační kvality;
2. Zapojení nástroje na řízení kvality dat v:
ˇ provozních systémech,
ˇ ETL procesech,
ˇ CRM a ERP systémech,
ˇ integraci dat (např. data warehouse, analytické CRM).
Řeení kvality dat
Proces řeení datové kvality je zpracováním souboru dat, jeho výsledkem je soubor určený pro import na určené místo. Tím můe být buď původní zdrojový systém, nebo systém navazující v toku zpracování dat, např. datový sklad. Proces řeení kvality dat je ilustrován na obrázku č. 1.
V následující části vás seznámíme s jednotlivými kroky procesu kvality dat. K jeho vysvětlení pouijeme příkladů.
Analýza a normalizace dat
Prostřednictvím procesu "analýza a normalizace dat" zjiujeme stav kvality dat. Analýza spočívá ve zjiování různých datových defektů, přičem tyto pak budou v dalích krocích řeeny tak, abychom dostali na výstupu (tj. před jejich dalím pouitím) data s vyí kvalitou. Během procesu analyzujeme, zda a jak jsou vyplněny jednotlivé atributy, formáty apod. Vechny tyto analýzy vak musí být prováděny v souladu s obchodními pravidly společnosti. Současně s tímto je prováděna standardizace vstupních dat, např. normalizace zkratek, konverze na kapitálky apod. (tab. 1).
Tabulka 1: Příklad normalizace dat
Standardizace dat
V rámci standardizace dat provádíme rozpoznávání jednotlivých poloek a jejich případné ukládání do správných polí. Jedná se o velice významnou část procesu kvality dat, nebo vechny ostatní kroky, včetně procesu deduplikace (odstranění duplicitních záznamů) závisí na kvalitě tohoto procesu (tab. 2). Během standardizace se provádí rozpoznání a roztřídění datových poloek na základě znalostní báze, identifikace chyb v datech, aplikace podnikových datových standardů a příprava dat na sémantickou analýzu.
Tabulka 2: Příklad standardizace dat.
Doplnění dat
Spočívá v rozpoznání a doplnění chybějících částí adresy. Podmínkou pro úspěch této činnosti je validní znalostní báze obsahující vechny české adresy.
Tabulka 3: Příklad doplnění dat
Sloučení, porovnání, deduplikace dat
Spočívá v porovnání záznamů mezi sebou na základě shodnosti a podobnosti. Dle pravidel pro porovnávání je vypočtena míra shodnosti a provedeno rozhodnutí o shodě nebo neshodě kandidátů na ztotonění. Výsledkem je odstranění duplicit a získání deduplikovaných dat.
Tabulka 4: Sdruování záznamů v rámci jednoho systému
Validace oproti obchodnímu rejstříku a registru adres
V předcházejících krocích jsme popsali proces kvality dat, který jsme aplikovali na jmenné a adresní údaje. Samozřejmě, e kvalita dat se také dotýká tzv. neadresních dat, která z pohledu podnikání organizace představují významnějí část. Tato data můeme shrnout pod pojem "obchodní" data. Mnohé procesy kvality dat je moné realizovat velice efektivně prostřednictvím nástrojů kvality dat, přičem jejich přínosy jsou v automatizaci procesu validace dat a zároveň v tom, e tyto validace je moné provést v krátkém čase na velkém objemu dat, co není v případě manuálních korekcí moné.
Tabulka 5: Validace neadresních dat

Datová kvalita je zaměřena na určitou část informační kvality, a to kvalitu dat uvnitř databází jednotlivých systémů. Její účinnost se tak omezuje pouze na jednotlivé systémy. Pokud se chceme zabývat problematikou kvality dat napříč podnikem se zaměřením na vechny komponenty, pak hovoříme o "informační kvalitě".
Informace je tvořena třemi základními komponentami:
ˇ data,
ˇ definice,
ˇ prezentace.
Informační kvalita se zabývá kvalitou vech těchto komponent, a to napříč organizací, a zároveň se zaměřuje na kvalitu informací poadovanou jednotlivými skupinami koncových uivatelů. Informační kvalita je mnohde přehlíeným problémem, avak problémy s informační kvalitou je moné identifikovat v kadé organizaci. Nekvalitní informace uloené v produkčních systémech mají dopad na kvalitu rozhodovacích procesů organizace. Důvod, proč organizace nevěnují pozornost problematice informační kvality, je ten, e ne plně doceňují objem finančních nákladů na správu nekvalitních informací, resp. jejich dopadů do procesů společnosti apod. Specialisté v oblasti informační kvality se přitom shodují na tom, e náklady na nekvalitní informace mohou dosáhnout 15-20 % zisku organizace. Některé organizace se snaí s problematikou kvality dat určitým způsobem vypořádat. Jejich řeení je zaloeno na sledování kvality dat v databázích, přičem jejich přístup je zpravidla jednorázový, nebo se domnívají, e problematiku "kvality dat" je moné vyřeit během jednoho projektu. Bohuel je nutné konstatovat, e informační kvalita se nedá řeit jednorázovým projektem a její řeení je zaloeno na neustálém zlepování. Na druhé straně jsou organizace, které se snaí realizovat problematiku datové kvality prostřednictvím některého z nástrojů informační kvality, jako např. Trillium Software, Similarity Systems, FirstLogic, Innovative Systems apod. Bohuel i zde je nutné konstatovat, e problematika informační kvality se nedá řeit pouhou implementací některého z nástrojů informační kvality, protoe tyto nástroje nejsou schopny pokrýt některé systémové zdroje chyb, např. oblast nesprávně fungujících obchodních procesů.
Hlavní problémy v datech provozních systémů
Na základě dosavadní praxe a realizace projektů datové kvality patří mezi nejčastějí datové defekty:
ˇ překlepy,
ˇ nepřesné nebo neúplné adresní i dalí údaje shromaďované o zákaznících a poskytovaných slubách,
ˇ data zapsaná do nesprávných datových poloek,
ˇ duplicitní evidence napříč různými systémy,
ˇ nekonzistence v datech.
Příčin vzniku těchto defektů je několik. Souvisejí například se zakládáním dat do systému a kontrolními mechanismy v rámci aplikace.
Důsledky nekvalitních dat
Problémy v datech se samozřejmě promítají nejen do přímého zvýení nákladů společnosti (viz náklady na nekvalitní informace zmíněné v úvodu), ale i přímo do obchodních a řídících procesů. Nejčastějí důsledky nekvalitních dat, a tím i z nich vytvářených informací, jsou:
ˇ neúplné nebo chybné podklady pro rozhodování,
ˇ rozdílné hodnoty stejných ukazatelů reportovaných z různých systémů,
ˇ neefektivní marketingové kampaně,
ˇ nedoručené účty a dalí zásilky,
ˇ vícenásobně doručené zásilky,
ˇ selhávání obchodních procesů,
ˇ růst nákladů na kompenzace problémů,
ˇ prodlouení odezvy provozních systémů
Systémové řeení problematiky informační a datové kvality
Systémovým řeením problematiky informační a datové kvality rozumíme nasazení takových prostředků, které zabezpečí zahájení dlouhodobých procesů zvyování kvality dat a informací a které postihnou nejen stávající, ale i budoucí informační systémy nasazované ve společnosti. Kroky vedoucí k vytyčenému cíli jsou:
1. Zpracování a zavedení celopodnikové metodiky na zajitění informační kvality;
2. Zapojení nástroje na řízení kvality dat v:
ˇ provozních systémech,
ˇ ETL procesech,
ˇ CRM a ERP systémech,
ˇ integraci dat (např. data warehouse, analytické CRM).
Řeení kvality dat
Proces řeení datové kvality je zpracováním souboru dat, jeho výsledkem je soubor určený pro import na určené místo. Tím můe být buď původní zdrojový systém, nebo systém navazující v toku zpracování dat, např. datový sklad. Proces řeení kvality dat je ilustrován na obrázku č. 1.
V následující části vás seznámíme s jednotlivými kroky procesu kvality dat. K jeho vysvětlení pouijeme příkladů.
Analýza a normalizace dat
Prostřednictvím procesu "analýza a normalizace dat" zjiujeme stav kvality dat. Analýza spočívá ve zjiování různých datových defektů, přičem tyto pak budou v dalích krocích řeeny tak, abychom dostali na výstupu (tj. před jejich dalím pouitím) data s vyí kvalitou. Během procesu analyzujeme, zda a jak jsou vyplněny jednotlivé atributy, formáty apod. Vechny tyto analýzy vak musí být prováděny v souladu s obchodními pravidly společnosti. Současně s tímto je prováděna standardizace vstupních dat, např. normalizace zkratek, konverze na kapitálky apod. (tab. 1).
| Vstup | Výstup |
| novák Fŕntiek; RČ 05 06 1972 #praha 18000 Sokloovskă 13 | Novák Frntiek RČ 05 06 1972 Praha 18000 Sokloovská 13 |
| Ćeska SPOritelna? OLBRACHtova ? 62 1929? Prha | Česká sporitelna Olbrachtova 62 1929 Prha |
| Na Manninach 876 Praha ~Avon SRO~ IČO: neuvedeno | Na Manninach 876 Praha Avon SRO |
Standardizace dat
V rámci standardizace dat provádíme rozpoznávání jednotlivých poloek a jejich případné ukládání do správných polí. Jedná se o velice významnou část procesu kvality dat, nebo vechny ostatní kroky, včetně procesu deduplikace (odstranění duplicitních záznamů) závisí na kvalitě tohoto procesu (tab. 2). Během standardizace se provádí rozpoznání a roztřídění datových poloek na základě znalostní báze, identifikace chyb v datech, aplikace podnikových datových standardů a příprava dat na sémantickou analýzu.
| Vstup | Výstup |
| Novák Frntiek RČ 05 06 1972 Praha 18000 Sokloovská 13 | Frantiek Novák Narozen: 05 06 1972 Sokolovská 13 Praha 180 00 |
| Česká sporitelna Olbrachtova 62 1929Prha | Česká spořitelna Olbrachtova 62 1929 Praha |
| Na Manninach 876 Praha Avon SRO | Avon s.r.o. Na Maninách 876 Praha |
Doplnění dat
Spočívá v rozpoznání a doplnění chybějících částí adresy. Podmínkou pro úspěch této činnosti je validní znalostní báze obsahující vechny české adresy.
| Vstup | Výstup |
| Frantiek Novák Narozen: 05 06 1972 Sokolovská 13 Praha 180 00 | Frantiek Novák Narozen: 05 06 1972 Sokolovská 13/1200 Praha 8180 05 |
| Česká spořitelna Olbrachtova 62 1929 Praha | Česká spořitelna, a.s.Olbrachtova 1929/62 Praha 4140 00 |
| Avon s.r.o. Na Maninách 876 Praha Avon | s.r.o.Na Maninách 876/7 Praha 7170 00 |
Sloučení, porovnání, deduplikace dat
Spočívá v porovnání záznamů mezi sebou na základě shodnosti a podobnosti. Dle pravidel pro porovnávání je vypočtena míra shodnosti a provedeno rozhodnutí o shodě nebo neshodě kandidátů na ztotonění. Výsledkem je odstranění duplicit a získání deduplikovaných dat.
| Vstup | Výstup |
| Čes. spořitelna, a.s. Olbrachtova 140 00 Praha 4 IČO: 45244782 | Česká spořitelna, a.s. Olbrachtova 1929/62 140 00 Praha 4 IČO: 45244782 |
| Česká spořitelna a.s. Olbrachtova 1929/62140 00 Praha 4 IČO:nezadáno |
Validace oproti obchodnímu rejstříku a registru adres
V předcházejících krocích jsme popsali proces kvality dat, který jsme aplikovali na jmenné a adresní údaje. Samozřejmě, e kvalita dat se také dotýká tzv. neadresních dat, která z pohledu podnikání organizace představují významnějí část. Tato data můeme shrnout pod pojem "obchodní" data. Mnohé procesy kvality dat je moné realizovat velice efektivně prostřednictvím nástrojů kvality dat, přičem jejich přínosy jsou v automatizaci procesu validace dat a zároveň v tom, e tyto validace je moné provést v krátkém čase na velkém objemu dat, co není v případě manuálních korekcí moné.
| Vstup | Výstup |
| Avon s.r.o. Na Maninách 876/7 Praha 7 170 00 | AVON Cosmetics spol. s r.o. IČ: 00571989 Na Maninách 876/7 Praha 7 170 00 |


















