facebook LinkedIN LinkedIN - follow
Business Intelligence , AI a Business Intelligence

Datová kvalita není jen o čištění dat



AquasoftJen z intuice, dobrého nápadu a minulých úspěchů nelze žít navěky. Malé a středně velké organizace bojující s většími konkurenty už musí přidat i něco navíc – získat z nasbíraných dat využitelné informace a znalosti, které jsou klíčové pro dosažení stanovených cílů. Bez čistých, důvěryhodných a přesných dat to však není dlouhodobě možné.


Nekvalitní data mohou mít škodlivý vliv na zdraví podniku. Pokud nejsou včas odhalena a opravena, mohou postupně zamořit všechny propojené informační systémy, znehodnotit jejich význam a použitelnost při rozhodování a prognózování vývoje, významně zvýšit náklady a ohrozit vztahy se zákazníky a dodavateli.

Odhaduje se, že zhruba dvě třetiny programového kódu v informačních systémech jsou napsány jen proto, aby byly podchyceny anomálie v datech. Tedy dvě třetiny kódu vznikly velmi pravděpodobně dodatečně během testování a samotného provozu. Kdyby byla data předtím zkontrolována a vyčištěna, vedlo by to k velkým úsporám při vytváření a údržbě informačních systémů.

Přibývají organizace, které používají nástroje business intelligence na podporu rozhodování a sledování plnění stanovených cílů. Pokud tyto nástroje používají nekvalitní data, i výsledky pak budou nekvalitní, mnohdy i zavádějící. To může vést k řadě problémů, někdy i existenčním. Uveďme jich pár příkladem: ztráta podílu na trhu, plýtvání materiálními i lidskými zdroji, nespokojenost zákazníků s kvalitou zboží a služeb, nesplnění plánu nákladů a výnosů, pokuty a penále, neúspěšné rozvojové projekty, nízká produktivita práce a další. Na druhou stranu, kvalitní data pomohou zlepšit rozhodovací schopnosti a zvýšit úspěšnost správného rozhodnutí.

Kvalita dat není statická, v čase se mění. Stačí například jen to, že se zákazník přestěhuje, změní telefonní číslo nebo číslo bankovního účtu. Aniž by data někdo změnil, už se snížila jejich kvalita. Pokud jsou informace uložené ve více informačních systémech, je poměrně náročné zajistit jejich synchronizaci nebo absolutní shodu. Kvalita dat může utrpět i ve chvíli zadání do systému. Uživatel například chybně zapsal nějaký údaj, nebo vůbec nevěděl, jak a jaká data měl zapsat.

Data profiling a další nástroje

Velkou většinu těchto problémů lze odstranit a předcházet jim. Pomáhají nám v tom pravidla, postupy a nástroje, které dohromady tvoří disciplínu datové kvality. Datovou kvalitu nelze vyřešit najednou, je to nekonečný proces s dílčími kroky a přínosy. Je dobré začít s jednoduššími daty, jako jsou jména, kontaktní informace nebo rozličné číselníky. I drobné zlepšení může zajistit úspory a přínosy. Data jsou kvalitní tehdy, pokud o nich uživatelé řeknou, že jsou přesná a použitelná ke svému určení. Pokud to neplatí, je nutné určit nějakou mez, kdy už je kvalita přijatelná, nebo alespoň vyjádřit jejich kvalitu procenty. Mnohdy je totiž lepší udělat nějaké rozhodnutí hned na základě dat s kvalitou sedmdesát procent, než učinit rozhodnutí o měsíc později s kvalitou devadesát pět procent. I v malé organizaci by měli být určení lidé, kteří jsou zodpovědní za data a jejich kvalitu v každé oblasti. Neměli by to být lidé z IT, ale přímo uživatelé systémů, kteří mají k datům nejblíže, rozumí jim a ví, jestli jsou správná a úplná. Jen tito lidé mohou stanovit jejich kvalitu a podílet se na jejím zvýšení.

Datová kvalita je často vnímána jako čištění dat. To je však pouze jedna z více oblastí celé disciplíny. Nejlepších výsledků lze dosáhnout většinou tehdy, pokud organizace začne s prozkoumáním a poznáním vlastních dat. Pomocí nástrojů data profiling lze pohodlně popsat data obsažená v informačních systémech, a identifikovat tak jejich úplnost nebo nedostatky. Pomocí statistických metod lze dohledat vzájemné vztahy mezi objekty i napříč několika systémy. Výsledky z takto provedeného průzkumu dat budou použity v dalších fázích. Data profiling popisuje již uložená data, zatímco nástroje data monitoringu dokážou upozorňovat uživatele v reálném čase na základě stanovených pravidel. S jejich pomocí se zabrání opětovnému vzniku nedostatků. Uživatelé mohou být upozorněni, pokud byly zadány hodnoty mimo stanovený rámec, pokud nebyla splněna stanovená pravidla nebo když je vývoj procesu v rozporu s jeho definicí.

Doposud jsme data pouze popisovali a snažili se jim porozumět. Takto získané informace můžeme použít při jejich čištění. Několik základních čisticích operací dokáže provést i zkušený databázový uživatel. Pro složitější a sofistikovanější metody je už vhodné použít specializované nástroje. Ty mají totiž vestavěné různé vzory a předdefinované operace. Na začátku je stačí nasměrovat do úložiště, kde se data určená k čištění nachází. Tyto nástroje pak zajistí operace typu: inteligentní rozpad polí, ve kterých je seskupeno více informací najednou, jako adresa, tu lze rozdělit na ulici, popisné a orientační číslo, obec, poštovní směrovací číslo a zemi; celé jméno lze rozdělit na křestní jméno, druhé jméno a příjmení; více telefonních čísel v jednom poli lze rozdělit do samostatných polí atd. Kromě rozdělování polí je velmi důležité vyhledávání a odstraňování duplicit, označení nebo odstranění sirotčích záznamů, opravování porušených hierarchií nebo překryvů v platnosti záznamů. Často využívanou funkcionalitou je nahrazování hodnot podle speciálních masek nebo složitějších vzorů. U nestrukturovaných textů je možné využít kontrolu pravopisu. Data se také často ověřují vůči interním číselníkům s materiálem, produkty, zaměstnanci, typy dokumentů nebo nastavenými procesy. Využívají se ovšem i veřejně dostupné číselníky databáze adres, nemovitostí, automobilů nebo rejstříky fyzických a právnických osob, dlužníků, internetových domén atd. V minulosti získané informace tak můžeme aktualizovat nově nalezenými, nebo potvrdit, že jsou stále platné. Tím se pro uživatele stávají věrohodnějšími a cennějšími.

Nástroje na čištění dat jsou připraveny také na to, že uživatelé rozšíří jejich standardní funkcionalitu o další specifické metody a pravidla, které jsou u každé organizace rozdílné a neopakovatelné. Obsahují základní sadu příkazů, které lze vzájemně kombinovat nebo rozšířit o nové, a vytvořit tak vlastní scénáře čištění. Práci usnadňuje komfortní uživatelské prostředí s intuitivními průvodci. Při výběru nástroje na čištění dat mohou hrát roli různé faktory. Je to například připojení ke stávajícím databázím, ve kterých budeme data čistit. To by mělo být výslovně podporované a jednoduše nastavitelné. Tím se ušetří čas i peníze na vývoj vlastní integrační vrstvy. Navíc nástroj na čištění pak umí využít potřebné vestavěné funkce databáze. Na druhé straně lze také napojit existující vnitropodnikové systémy na nástroj pro čištění dat například přes univerzální webovou službu, a zpřístupnit tak jeho funkcionalitu koncovým uživatelům. Obecné doporučení při výběru nástroje říká, že je zbytečné porovnávat nástroje mezi sebou, je potřeba vyhodnotit, do jaké míry každý nástroj splňuje naše aktuální potřeby.

Další oblastí v disciplíně datové kvality je obohacování dat. V této fázi se opět využívají externí, volně přístupné zdroje informací. Z již zmíněných rejstříků můžeme dohledat adresy, kontaktní údaje a vztahy mezi fyzickými a právnickými osobami. Tím například dokážeme rozkrýt zatím nezjištěné vazby mezi zákazníky, a eliminovat tak riziko nesplacení pohledávek. Také logistické firmy často obohacují adresy svých dodavatelů a odběratelů o geolokační informace. Dokážou tak optimalizovat náklady na přesun zboží a využití vlastních zdrojů. Podobných příkladů využití obohacených dat by se našla celá řada.

Měřitelné přínosy

Zkušenosti organizací s použitím nástrojů a metodik datové kvality potvrzují proklamované přínosy. Ty jsou většinou velmi jednoduše měřitelné, a proto se také dobře obhajují před vedením organizace. To samozřejmě umožňuje investice do dalších fází zlepšování datové kvality. Co je obtížněji měřitelné, je důvěra uživatelů v kvalitní data. Lze ji však aktivně zvyšovat vzájemnou komunikací a informovaností mezi uživateli používajícími data a těmi, kteří jejich kvalitu zlepšují.

Michal Nový

Autor působí jako team leader ve společnosti Aquasoft.
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.


Inzerce

7 vlastností ERP systému, které dělají uživatelům radost

Kdy je ovládání ERP systému poho­dl­né? Když mohou jeho uživatelé snadno a efektivně pracovat s potřebnými funkcemi a informacemi bez zbytečných obtíží. Tím se zvýší produktivita jejich práce, omezí se chybovost a firma poroste.