facebook LinkedIN LinkedIN - follow
Business Intelligence , AI a Business Intelligence

Datová kvalita pod lupou

Vladimír Kyjonka


Chyby se v datech vyskytují od počátku jejich automatizovaného zpracování. Vývoj IT v posledních letech vedl a stále vede k tomu, že se elektronicky zpracovává stále více dat ze stále více oblastí. Na druhé straně stále více činností je na elektronickém hromadném zpracování dat závislých. Velká míra nekvalitních dat významně snižuje jejich správnou použitelnost.


Nesprávná data vedou k nesprávným výsledkům jejich zpracování a v důsledku ke špatnému fungování podnikových procesů s následkem ekonomických ztrát. Dalším důsledkem nekvality je vynakládání prostředků na správu, zpracování, archivaci nesprávných, nesmyslných a nadbytečných dat, což představuje přímé ekonomické ztráty. Tento jev je v literatuře charakterizován jako zpracování „garbage in – garbage out“. Míra negativních dopadů zpracování nekvalitních dat se stává významnější se zvětšováním rozsahu a složitosti informačních systémů a zvyšováním důležitosti IT v podnikových procesech.

Proč nekvalitní data…

Zdrojem chyb a dalších typů nekvalit jsou v zásadě dvě skutečnosti. První důvod je zjevný: data, se kterými pracují počítačové systémy, do nich vkládají lidé. A lidé dělají chyby (překlepy, zápisy do nesprávných polí, neznalost, vlastní „tvořivost“ apod.). Druhý důvod je dán tím, že informační systémy podniků dnes sestávají z mnohdy autonomních agend, zaměřených na různé oblasti, založených na různých technologiích, vytvořených různými dodavateli v různých dobách. Tato inkonzistence způsobuje, že i data, která jsou prostá chyb způsobených přímo člověkem, nedokáží jednotně (a tudíž správně) identifikovat a popsat konkrétního jedince, produkt či jiný subjekt.

…a proč to vadí právě teď

Dnešním trendem v oblasti zpracování podnikových dat je integrace. V zásadě jde o snahu sjednotit fungování jednotlivých částí informačních systémů podniku navzájem a současně je propojit a ztotožnit s fungováním vlastních podnikových procesů (business procesů). Cílem je zefektivnit, zpřehlednit, zrychlit, zpružnit a v důsledku zlevnit jejich realizaci a vytvořit pro podnik konkurenční výhodu. V praxi jsou k této problematice různé přístupy, které se liší zaměřením úrovní, hloubkou či technikou integrace – například datové sklady (DW) a business inteligence (BI), datová integrace (DI), podniková aplikační integrace (EAI), integrace podnikových procesů (BPI), architektura informačního hubu (IHA), podniková sběrnice (informačních) služeb (enterpeise service hub – ESH), master data management (MDM) atd. Pro všechny přístupy je však společné, že zajišťují vzájemné automatizované předávání a sdílení dat mezi všemi částmi podnikových systémů. Pokud jsou tato data v některé části systému nekvalitní, automaticky se chyby šíří i do ostatních částí. Pokud je obsah dat v různých částech vzájemně nekonzistentní, zcela to neguje účel integrace

Datová kvalita pod lupou

Snaha vypořádat se s nekvalitními daty byla vždy v jisté (různě velké) míře součástí softwarových řešení zabývajících se hromadným zpracováním dat. Funkce, které tato řešení pro tento účel obsahovala, se však vyznačují velmi omezenou schopností se s nekvalitou vyrovnat. Možnost opětovného použití daných dat se blížila nule, stejně jako možnost zobecnění. Tento přístup k řešení kvality dat se ukázal jako velmi pracný a nákladný, a přitom málo účinný.
Problematikou kvality dat se dlouhodobě zabývá několik mezinárodních společností (významnější jsou napříkld Trillium, First- Logic/Business Objects), které se na tuto agendu specializují a disponují komerčními produkty pro čištění dat. Jejich řešení se primárně vyvíjí pro severoamerický trh a je zaměřeno na střední a velké (v severoamerickém měřítku) instituce. V důsledku toho vyžadují jejich řešení pro možné nasazení v našich podmínkách značné přizpůsobení. Nejde přitom o tradiční „lokalizaci“, jako je tomu u jiných softwarových produktů (tedy zajištění, aby daný program komunikoval s jeho uživateli v národním jazyce). To je většinou relativně snadná, i když pracná úloha.
V případě řešení pro zajištění kvality dat je nutné respektovat všechny zákonitosti nejen jazyka, ale i zvyklostí při jeho používání včetně typů vyskytujících se chyb, způsobu evidence nejrůznějších údajů, společenských a legislativních pravidel, dostupnosti a obsahu různých rejstříků a slovníků (adresy, podnikatelské subjekty, motorová vozidla, jména a příjmení a jejich konvence, ...) a dalších součástí (seznamy typických chyb a způsobů jejich opravy, statistické charakteristiky jazykových elementů, formáty zápisu různých typů údajů atd.). Je v nich třeba doplnit některé funkce, které pro primární (anglické) prostředí nebyly vytvořeny, protože pro ně nemají smysl. Na druhou stranu – obsahují jiné funkce, které nelze v odlišném jazykovém a kulturním prostředí použít.
Kromě toho jsou pro většinu našich organizací tato řešení příliš nákladná (nesrovnatelně vyšší náklady na nasazení, přizpůsobení a provozování proti jiným součástem podnikových systémů). Navíc dodavatelské firmy u nás ani v blízkém okolí nemají zastoupení, což limituje lokální podporu jejich řešení.
Vzniká zde mezera na trhu pro čistě lokální řešení specializovaná na řízení datové kvality, která vyvinuly lokální firmy. Na českém a slovenském trhu mezi ně patří například společnost Adastra, jejíž aplikaci Purity.360 využívají již desítky zákazníků jako Český Telecom, ČSOB a ČSOB Pojišťovna, HVB Bank, Všeobecná úverová banka či Consumer Finance Holding.

Optimální řešení

Cílem je nabídnout řešení, jež lze v podnikových systémech nasadit pro zajištění kvality dat a které bude použitelné, přínosné a dostupné jak v lokálním prostředí (tj. bude pokrývat specifika národního jazykového a kulturního prostředí a bude finančně dostupné i pro menší a střední organizace z pohledu lokálního trhu), tak i v jiných jazykových oblastech, a dále získat a rozvinout znalosti a praktické zkušenosti z oblasti řízení kvality dat.
Aby bylo řešení úplné, mělo by se skládat z několika částí, které jako celek postihují celou problematiku kvality dat, ale je možné je využít i jednotlivě, každou samostatně. Jedná se o následující součásti:
  • softwarový nástroj pro analýzu, čištění, unifikaci a monitorování kvality dat, jeho podpora a rozvoj,
  • metodika řízení kvality dat,
  • implementační team, nejlépe vybavený teoretickým i praktickým know-how z oblasti řízení kvality dat a realizace projektů řízení kvality dat v praxi (technickými, metodickými a obchodními znalostmi z této oblasti).


Co (a jak) řeší optimální softwarový nástroj

Vlastním softwarovým nástrojem by měl být nezávislý a otevřený systém, který lze nasadit do jakéhokoliv IT prostředí a zajišťuje následující okruhy činností:

1. Identifikace, kvantifikace, klasifikace a analýza chyb a problémů v datech.
Cílem tohoto okruhu činností je poznat stav kvality dat a na jeho základě stanovit postupy, pravidla a standardy pro zvýšení a udržení kvality dat. Současně podle nastavených pravidel a mezí identifikuje záznamy a skupiny záznamů, které:
  • systém automaticky opraví a upraví pro dosažení vyšší kvality,
  • systém opraví a upraví na základě explicitního rozhodnutí (případně ověření),
  • bude třeba ručně opravit z důvodu velmi nízké kvality, neúplnosti nebo zjevné nesprávnosti, již nelze automaticky opravit.
2. Zpracování dat pomocí čistících a unifikačních algoritmů, v rámci něhož se automatizovaně provede:
  • čištění – rozpoznání (parsing) obsahu datových položek, opravy datových položek (odstranění překlepů, nesprávných zápisů, formátů apod.),
  • standardizace – převod datových položek na jednotný formát, který je pak možno použít pro porovnání s rejstříky a číselníky a pro porovnání hodnot datových položek spravovaných různými systémy,
  • obohacení – doplnění chybějících položek, pokud je to možné (např. chybějících částí adresy),
  • unifikace – určení všech záznamů, které představují jeden konkrétní subjekt – např. nalezení a jednoznačné označení všech evidovaných záznamů o konkrétní osobě, adrese, vozidle atd.,
  • deduplikaci – výběr nejlepšího záznamu, který bude nadále reprezentovat konkrétní subjekt,
  • identifikaci – pro nové datové záznamy – určení konkrétního subjektu (například osoby), ke kterému záznam patří.


3. Měření, monitorování a reportování kvality dat – vytváření reportů, statistik a zpráv o stavu kvality dat vyjádřené jak číselnými, tak kvalitativními ukazateli, které se vytvářejí pravidelně během procesu analýzy a zpracování a slouží jednak jako podklady pro analýzu kvality dat, jednak pro sledování účinnosti celého řešení.

Nástroj je možno použít jak jednorázově – aplikovat jej na všechna data již uchovávaná v systému pro jednorázové zlepšení jejich kvality – tak rutinně pro všechna data nově vstupující do systému s cílem zachytit skutečné a potenciální problémy už v okamžiku jejich vzniku. Pro tuto druhou možnost musí systém zajistit práci v reálném čase (okamžitá odezva při interaktivním vstupu dat).
Nástroj lze zasadit do jakékoliv integrační architektury (DW & BI, ETL, EAI, BPI, MDM, ...) nezávisle na konkrétních aplikacích podnikového informačního systému a technologických platformách, které tyto aplikace využívají.
Je výhodou, pokud nasazení tohoto softwarového nástroje nevyžaduje využívání jiných komerčních softwarových produktů (databázové systémy, aplikační servery a portály), které by generovaly další pořizovací a provozní náklady.

Nezbytné doplňky a příslušenství

Aby se produkt dal vícenásobně efektivně nasazovat, musí obsahovat sady číselníků, rejstříků a pravidel, které se opakovaně využívají a rozvíjejí (znalostní báze). Dodavatel je získává buď z veřejných zdrojů (registry adres, registry ekonomických subjektů, číselníky jmen a příjmení apod.), nebo je vytvářejí a doplňují v průběhu nasazení v konkrétních řešeních (například pravidla pro automatické opravy).
Tato znalostní báze je nedílnou součástí nástroje a pro správné využívání v rutinním nasazení se pravidelně udržuje a aktualizuje.

Sám software vše nevyřeší

Žádný sebelepší nástroj společnostem příliš nepomůže, pokud daná firma neví, jak ho správně použít.
Podstatnou součást jakéhokoliv řešení představuje sada metodik, které v zásadě shrnují zkušenost, jež už získali jiní. Tyto metodiky obsahují pravidla, doporučení a standardy například pro následující oblasti:
  • implementace softwarového nástroje (správná instalace, konfigurace, nastavení prostředí, začlenění do celkové architektury atd.),
  • postupy, procesy a pravidla pro další činnosti související s nasazením produktu (plánování automatických procesů, řízení a plánovaní poloautomatických činností, audit kvality dat, provádění a vyhodnocování manuálního čištění dat, workflow atd.),
  • řízení datové kvality podniku (politika datové kvality, standardy, business procesy reflektující potřeby řízení datové kvality, řízení a motivace lidských zdrojů v procesu řízení datové kvality atd.),
  • zapojení produktu do různých integračních architektur,
  • metodika pro zvláštní agendy (identifikace klienta, identifikace adres, identifikace motorových vozidel, houselholding atd.).

Datová kvalita ve středu zájmu celé firmy

...nebo alespoň vrcholového managementu. Oblast řízení kvality dat musí být součástí všech podnikových činností, a ne pouze doménou oddělení IT. Nízká kvalita dat má dopad právě do reálného života společností, a hlavně v mnoha případech znamená, že jsou ve špatné kvalitě nakonec dodány i výsledky jinak dobře odvedené práce. A to je opravdu škoda.
Autor je ředitelem divize Purity ve společnosti Adastra.
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.

Inzerce

Modernizace IS je příležitost přehodnotit způsob práce

IT Systems 4/2025V aktuálním vydání IT Systems bych chtěl upozornit především na přílohu věnovanou kybernetické bezpečnosti. Jde o problematiku, které se věnujeme prakticky v každém vydání. Neustále se totiž vyvíjí a rozšiřuje. Tematická příloha Cyber Security je příležitostí podívat se podrobněji, jakým kybernetickým hrozbám dnes musíme čelit a jak se před nimi můžeme chránit. Kromě kybernetické bezpečnosti jsme se zaměřili také na digitalizaci průmyslu.