- Přehledy IS
- APS (25)
- BPM - procesní řízení (23)
- Cloud computing (IaaS) (10)
- Cloud computing (SaaS) (31)
- CRM (52)
- DMS/ECM - správa dokumentů (19)
- EAM (17)
- Ekonomické systémy (68)
- ERP (75)
- HRM (28)
- ITSM (6)
- MES (33)
- Řízení výroby (36)
- WMS (28)
- Dodavatelé IT služeb a řešení
- Datová centra (25)
- Dodavatelé CAD/CAM/PLM/BIM... (41)
- Dodavatelé CRM (38)
- Dodavatelé DW-BI (50)
- Dodavatelé ERP (66)
- Informační bezpečnost (48)
- IT řešení pro logistiku (48)
- IT řešení pro stavebnictví (26)
- Řešení pro veřejný a státní sektor (27)
Tematické sekce


















Branžové sekce
![]() | Přihlaste se k odběru zpravodaje SystemNEWS na LinkedIn, který každý týden přináší výběr článků z oblasti podnikové informatiky | |
![]() | ||
Partneři webu
IT SYSTEM 6/2004
Proces řešení kvality dat
Ing. Marek Novotný
V každé společnosti působící dlouhodobě na trhu vzniká velké množství dat ukládaných do různých provozních transakčních systémů. Tato data mají zpravidla velmi různou kvalitu, což může v mnoha případech možnost jejich dalšího analytického využití výrazně snížit, nebo ji dokonce vyloučit. Proces řešení kvality dat je snaha o zvyšování kvality dat pomocí automatizovaných, specializovaných metodologií a aplikací, tak aby výsledky následných analýz nebyly zatíženy příliš velkými chybami a bylo je možné dále využívat pro rozhodovací a řídící procesy.
Datová kvalita je zaměřena na určitou část informační kvality, a to kvalitu dat uvnitř databází jednotlivých systémů. Její účinnost se tak omezuje pouze na jednotlivé systémy. Pokud se chceme zabývat problematikou kvality dat napříč podnikem se zaměřením na všechny komponenty, pak hovoříme o "informační kvalitě".
Informace je tvořena třemi základními komponentami:
· data,
· definice,
· prezentace.
Informační kvalita se zabývá kvalitou všech těchto komponent, a to napříč organizací, a zároveň se zaměřuje na kvalitu informací požadovanou jednotlivými skupinami koncových uživatelů. Informační kvalita je mnohde přehlíženým problémem, avšak problémy s informační kvalitou je možné identifikovat v každé organizaci. Nekvalitní informace uložené v produkčních systémech mají dopad na kvalitu rozhodovacích procesů organizace. Důvod, proč organizace nevěnují pozornost problematice informační kvality, je ten, že ne plně doceňují objem finančních nákladů na správu nekvalitních informací, resp. jejich dopadů do procesů společnosti apod. Specialisté v oblasti informační kvality se přitom shodují na tom, že náklady na nekvalitní informace mohou dosáhnout 15-20 % zisku organizace. Některé organizace se snaží s problematikou kvality dat určitým způsobem vypořádat. Jejich řešení je založeno na sledování kvality dat v databázích, přičemž jejich přístup je zpravidla jednorázový, neboť se domnívají, že problematiku "kvality dat" je možné vyřešit během jednoho projektu. Bohužel je nutné konstatovat, že informační kvalita se nedá řešit jednorázovým projektem a její řešení je založeno na neustálém zlepšování. Na druhé straně jsou organizace, které se snaží realizovat problematiku datové kvality prostřednictvím některého z nástrojů informační kvality, jako např. Trillium Software, Similarity Systems, FirstLogic, Innovative Systems apod. Bohužel i zde je nutné konstatovat, že problematika informační kvality se nedá řešit pouhou implementací některého z nástrojů informační kvality, protože tyto nástroje nejsou schopny pokrýt některé systémové zdroje chyb, např. oblast nesprávně fungujících obchodních procesů.
Hlavní problémy v datech provozních systémů
Na základě dosavadní praxe a realizace projektů datové kvality patří mezi nejčastější datové defekty:
· překlepy,
· nepřesné nebo neúplné adresní i další údaje shromažďované o zákaznících a poskytovaných službách,
· data zapsaná do nesprávných datových položek,
· duplicitní evidence napříč různými systémy,
· nekonzistence v datech.
Příčin vzniku těchto defektů je několik. Souvisejí například se zakládáním dat do systému a kontrolními mechanismy v rámci aplikace.
Důsledky nekvalitních dat
Problémy v datech se samozřejmě promítají nejen do přímého zvýšení nákladů společnosti (viz náklady na nekvalitní informace zmíněné v úvodu), ale i přímo do obchodních a řídících procesů. Nejčastější důsledky nekvalitních dat, a tím i z nich vytvářených informací, jsou:
· neúplné nebo chybné podklady pro rozhodování,
· rozdílné hodnoty stejných ukazatelů reportovaných z různých systémů,
· neefektivní marketingové kampaně,
· nedoručené účty a další zásilky,
· vícenásobně doručené zásilky,
· selhávání obchodních procesů,
· růst nákladů na kompenzace problémů,
· prodloužení odezvy provozních systémů
Systémové řešení problematiky informační a datové kvality
Systémovým řešením problematiky informační a datové kvality rozumíme nasazení takových prostředků, které zabezpečí zahájení dlouhodobých procesů zvyšování kvality dat a informací a které postihnou nejen stávající, ale i budoucí informační systémy nasazované ve společnosti. Kroky vedoucí k vytyčenému cíli jsou:
1. Zpracování a zavedení celopodnikové metodiky na zajištění informační kvality;
2. Zapojení nástroje na řízení kvality dat v:
· provozních systémech,
· ETL procesech,
· CRM a ERP systémech,
· integraci dat (např. data warehouse, analytické CRM).
Řešení kvality dat
Proces řešení datové kvality je zpracováním souboru dat, jehož výsledkem je soubor určený pro import na určené místo. Tím může být buď původní zdrojový systém, nebo systém navazující v toku zpracování dat, např. datový sklad. Proces řešení kvality dat je ilustrován na obrázku č. 1.
V následující části vás seznámíme s jednotlivými kroky procesu kvality dat. K jeho vysvětlení použijeme příkladů.
Analýza a normalizace dat
Prostřednictvím procesu "analýza a normalizace dat" zjišťujeme stav kvality dat. Analýza spočívá ve zjišťování různých datových defektů, přičemž tyto pak budou v dalších krocích řešeny tak, abychom dostali na výstupu (tj. před jejich dalším použitím) data s vyšší kvalitou. Během procesu analyzujeme, zda a jak jsou vyplněny jednotlivé atributy, formáty apod. Všechny tyto analýzy však musí být prováděny v souladu s obchodními pravidly společnosti. Současně s tímto je prováděna standardizace vstupních dat, např. normalizace zkratek, konverze na kapitálky apod. (tab. 1).
Tabulka 1: Příklad normalizace dat
Standardizace dat
V rámci standardizace dat provádíme rozpoznávání jednotlivých položek a jejich případné ukládání do správných polí. Jedná se o velice významnou část procesu kvality dat, neboť všechny ostatní kroky, včetně procesu deduplikace (odstranění duplicitních záznamů) závisí na kvalitě tohoto procesu (tab. 2). Během standardizace se provádí rozpoznání a roztřídění datových položek na základě znalostní báze, identifikace chyb v datech, aplikace podnikových datových standardů a příprava dat na sémantickou analýzu.
Tabulka 2: Příklad standardizace dat.
Doplnění dat
Spočívá v rozpoznání a doplnění chybějících částí adresy. Podmínkou pro úspěch této činnosti je validní znalostní báze obsahující všechny české adresy.
Tabulka 3: Příklad doplnění dat
Sloučení, porovnání, deduplikace dat
Spočívá v porovnání záznamů mezi sebou na základě shodnosti a podobnosti. Dle pravidel pro porovnávání je vypočtena míra shodnosti a provedeno rozhodnutí o shodě nebo neshodě kandidátů na ztotožnění. Výsledkem je odstranění duplicit a získání deduplikovaných dat.
Tabulka 4: Sdružování záznamů v rámci jednoho systému
Validace oproti obchodnímu rejstříku a registru adres
V předcházejících krocích jsme popsali proces kvality dat, který jsme aplikovali na jmenné a adresní údaje. Samozřejmě, že kvalita dat se také dotýká tzv. neadresních dat, která z pohledu podnikání organizace představují významnější část. Tato data můžeme shrnout pod pojem "obchodní" data. Mnohé procesy kvality dat je možné realizovat velice efektivně prostřednictvím nástrojů kvality dat, přičemž jejich přínosy jsou v automatizaci procesu validace dat a zároveň v tom, že tyto validace je možné provést v krátkém čase na velkém objemu dat, což není v případě manuálních korekcí možné.
Tabulka 5: Validace neadresních dat



Datová kvalita je zaměřena na určitou část informační kvality, a to kvalitu dat uvnitř databází jednotlivých systémů. Její účinnost se tak omezuje pouze na jednotlivé systémy. Pokud se chceme zabývat problematikou kvality dat napříč podnikem se zaměřením na všechny komponenty, pak hovoříme o "informační kvalitě".
Informace je tvořena třemi základními komponentami:
· data,
· definice,
· prezentace.
Informační kvalita se zabývá kvalitou všech těchto komponent, a to napříč organizací, a zároveň se zaměřuje na kvalitu informací požadovanou jednotlivými skupinami koncových uživatelů. Informační kvalita je mnohde přehlíženým problémem, avšak problémy s informační kvalitou je možné identifikovat v každé organizaci. Nekvalitní informace uložené v produkčních systémech mají dopad na kvalitu rozhodovacích procesů organizace. Důvod, proč organizace nevěnují pozornost problematice informační kvality, je ten, že ne plně doceňují objem finančních nákladů na správu nekvalitních informací, resp. jejich dopadů do procesů společnosti apod. Specialisté v oblasti informační kvality se přitom shodují na tom, že náklady na nekvalitní informace mohou dosáhnout 15-20 % zisku organizace. Některé organizace se snaží s problematikou kvality dat určitým způsobem vypořádat. Jejich řešení je založeno na sledování kvality dat v databázích, přičemž jejich přístup je zpravidla jednorázový, neboť se domnívají, že problematiku "kvality dat" je možné vyřešit během jednoho projektu. Bohužel je nutné konstatovat, že informační kvalita se nedá řešit jednorázovým projektem a její řešení je založeno na neustálém zlepšování. Na druhé straně jsou organizace, které se snaží realizovat problematiku datové kvality prostřednictvím některého z nástrojů informační kvality, jako např. Trillium Software, Similarity Systems, FirstLogic, Innovative Systems apod. Bohužel i zde je nutné konstatovat, že problematika informační kvality se nedá řešit pouhou implementací některého z nástrojů informační kvality, protože tyto nástroje nejsou schopny pokrýt některé systémové zdroje chyb, např. oblast nesprávně fungujících obchodních procesů.
Hlavní problémy v datech provozních systémů
Na základě dosavadní praxe a realizace projektů datové kvality patří mezi nejčastější datové defekty:
· překlepy,
· nepřesné nebo neúplné adresní i další údaje shromažďované o zákaznících a poskytovaných službách,
· data zapsaná do nesprávných datových položek,
· duplicitní evidence napříč různými systémy,
· nekonzistence v datech.
Příčin vzniku těchto defektů je několik. Souvisejí například se zakládáním dat do systému a kontrolními mechanismy v rámci aplikace.
Důsledky nekvalitních dat
Problémy v datech se samozřejmě promítají nejen do přímého zvýšení nákladů společnosti (viz náklady na nekvalitní informace zmíněné v úvodu), ale i přímo do obchodních a řídících procesů. Nejčastější důsledky nekvalitních dat, a tím i z nich vytvářených informací, jsou:
· neúplné nebo chybné podklady pro rozhodování,
· rozdílné hodnoty stejných ukazatelů reportovaných z různých systémů,
· neefektivní marketingové kampaně,
· nedoručené účty a další zásilky,
· vícenásobně doručené zásilky,
· selhávání obchodních procesů,
· růst nákladů na kompenzace problémů,
· prodloužení odezvy provozních systémů
Systémové řešení problematiky informační a datové kvality
Systémovým řešením problematiky informační a datové kvality rozumíme nasazení takových prostředků, které zabezpečí zahájení dlouhodobých procesů zvyšování kvality dat a informací a které postihnou nejen stávající, ale i budoucí informační systémy nasazované ve společnosti. Kroky vedoucí k vytyčenému cíli jsou:
1. Zpracování a zavedení celopodnikové metodiky na zajištění informační kvality;
2. Zapojení nástroje na řízení kvality dat v:
· provozních systémech,
· ETL procesech,
· CRM a ERP systémech,
· integraci dat (např. data warehouse, analytické CRM).
Řešení kvality dat
Proces řešení datové kvality je zpracováním souboru dat, jehož výsledkem je soubor určený pro import na určené místo. Tím může být buď původní zdrojový systém, nebo systém navazující v toku zpracování dat, např. datový sklad. Proces řešení kvality dat je ilustrován na obrázku č. 1.
V následující části vás seznámíme s jednotlivými kroky procesu kvality dat. K jeho vysvětlení použijeme příkladů.
Analýza a normalizace dat
Prostřednictvím procesu "analýza a normalizace dat" zjišťujeme stav kvality dat. Analýza spočívá ve zjišťování různých datových defektů, přičemž tyto pak budou v dalších krocích řešeny tak, abychom dostali na výstupu (tj. před jejich dalším použitím) data s vyšší kvalitou. Během procesu analyzujeme, zda a jak jsou vyplněny jednotlivé atributy, formáty apod. Všechny tyto analýzy však musí být prováděny v souladu s obchodními pravidly společnosti. Současně s tímto je prováděna standardizace vstupních dat, např. normalizace zkratek, konverze na kapitálky apod. (tab. 1).
Vstup | Výstup |
novák Fŕntišek; RČ 05 06 1972 #praha 18000 Sokloovskă 13 | Novák Frntišek RČ 05 06 1972 Praha 18000 Sokloovská 13 |
Ćeska SPOritelna? OLBRACHtova ? 62 1929? Prha | Česká sporitelna Olbrachtova 62 1929 Prha |
Na Manninach 876 Praha ~Avon SRO~ IČO: neuvedeno | Na Manninach 876 Praha Avon SRO |
Standardizace dat
V rámci standardizace dat provádíme rozpoznávání jednotlivých položek a jejich případné ukládání do správných polí. Jedná se o velice významnou část procesu kvality dat, neboť všechny ostatní kroky, včetně procesu deduplikace (odstranění duplicitních záznamů) závisí na kvalitě tohoto procesu (tab. 2). Během standardizace se provádí rozpoznání a roztřídění datových položek na základě znalostní báze, identifikace chyb v datech, aplikace podnikových datových standardů a příprava dat na sémantickou analýzu.
Vstup | Výstup |
Novák Frntišek RČ 05 06 1972 Praha 18000 Sokloovská 13 | František Novák Narozen: 05 06 1972 Sokolovská 13 Praha 180 00 |
Česká sporitelna Olbrachtova 62 1929Prha | Česká spořitelna Olbrachtova 62 1929 Praha |
Na Manninach 876 Praha Avon SRO | Avon s.r.o. Na Maninách 876 Praha |
Doplnění dat
Spočívá v rozpoznání a doplnění chybějících částí adresy. Podmínkou pro úspěch této činnosti je validní znalostní báze obsahující všechny české adresy.
Vstup | Výstup |
František Novák Narozen: 05 06 1972 Sokolovská 13 Praha 180 00 | František Novák Narozen: 05 06 1972 Sokolovská 13/1200 Praha 8180 05 |
Česká spořitelna Olbrachtova 62 1929 Praha | Česká spořitelna, a.s.Olbrachtova 1929/62 Praha 4140 00 |
Avon s.r.o. Na Maninách 876 Praha Avon | s.r.o.Na Maninách 876/7 Praha 7170 00 |
Sloučení, porovnání, deduplikace dat
Spočívá v porovnání záznamů mezi sebou na základě shodnosti a podobnosti. Dle pravidel pro porovnávání je vypočtena míra shodnosti a provedeno rozhodnutí o shodě nebo neshodě kandidátů na ztotožnění. Výsledkem je odstranění duplicit a získání deduplikovaných dat.
Vstup | Výstup |
Čes. spořitelna, a.s. Olbrachtova 140 00 Praha 4 IČO: 45244782 | Česká spořitelna, a.s. Olbrachtova 1929/62 140 00 Praha 4 IČO: 45244782 |
Česká spořitelna a.s. Olbrachtova 1929/62140 00 Praha 4 IČO:nezadáno |
Validace oproti obchodnímu rejstříku a registru adres
V předcházejících krocích jsme popsali proces kvality dat, který jsme aplikovali na jmenné a adresní údaje. Samozřejmě, že kvalita dat se také dotýká tzv. neadresních dat, která z pohledu podnikání organizace představují významnější část. Tato data můžeme shrnout pod pojem "obchodní" data. Mnohé procesy kvality dat je možné realizovat velice efektivně prostřednictvím nástrojů kvality dat, přičemž jejich přínosy jsou v automatizaci procesu validace dat a zároveň v tom, že tyto validace je možné provést v krátkém čase na velkém objemu dat, což není v případě manuálních korekcí možné.
Vstup | Výstup |
Avon s.r.o. Na Maninách 876/7 Praha 7 170 00 | AVON Cosmetics spol. s r.o. IČ: 00571989 Na Maninách 876/7 Praha 7 170 00 |
![]() ![]() | ||||||
Po | Út | St | Čt | Pá | So | Ne |
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 1 | 2 | 3 | 4 |
5 | 6 | 7 | 8 | 9 | 10 | 11 |
IT Systems podporuje
Formulář pro přidání akce
Další vybrané akce
15.5. | Konference SCADA Security |
22.5. | Akce pro automobilové dodavatele "3DEXPERIENCE... |
12.6. | Konference ABIA CZ 2025: setkání zákazníků a partnerů... |
29.9. | The Massive IoT Conference |