facebook LinkedIN LinkedIN - follow
IT SYSTEMS 12/2016 , AI a Business Intelligence

Data Quality Management

Jak řešit kvalitu dat efektivně, modulárně a s měřitelným výsledkem

Jan Ulrych


ProfinitBezpečné zajištění dat a jejich správa pro chod a rozvoj organizace jsou dnes kritické hned z několika důvodů. Konkurence nespí, má kvalitnější data a je schopna je lépe využívat. Proto zákazníci preferují firmy a organizace, které mají ve svých procesech a datech pořádek. K tomu přibývají legislativní požadavky na reporting a je vyvíjen tlak na možnosti nalezení nových souvislostí a využití informací v existujících datech. Řešením je Data Quality Management (DQM).


Data Quality Management je sdílenou kompetencí s rolemi v byznyse i IT divizích. Snahy o zavedení DQM v IT většinou končí po kratším či delším snažení neúspěšně. IT většinou nedokáže správně klasifikovat chyby dle závažnosti pro byznys, což má za následek nízký ROI na řešení DQ problémů a celkově složité zajištění rozpočtu pro dlouhodobé fungování DQM. Naopak snahy o zavedení DQM čistě v byznys divizi organizace selhávají na typicky nedostatečném přístupu k datům, znalosti systémů či IT architektury tak, aby efektivně implementovaly měření kvality dat. Pro úspěšný DQM proces je nezbytně nutné, aby obě divize organizace spolupracovaly a měly společný zájem na zajištění kvalitních dat.

DQM je z pohledu managementu organizace poměrně nepopulární oblast. Je totiž mnohdy vnímaná jako náklad s neprůkaznými výsledky a přínosy. Organizace mnohdy funguje, generuje zisk a opravy dat a náklady spojené s datovou kvalitou (a potažmo s datovou architekturou a správou dat obecně) jsou značné. Nicméně z dlouhodobého hlediska je opomíjení datové kvality časovaná bomba. Pro zavedení DQM je tedy důležité začít v malém, a to právě tam, kde jsou ze strany byznysu vnímány nedostatky a kde jsou největší přínosy. Podívejme se nejprve na typické nedostatky, DQM proces a principy, jak jej implementovat úspěšně.

Zdroje chyb a jejich náprava

Hlavními důvody vzniku nekvalitních dat jsou zejména: chyby při zadávání dat člověkem; nedostatečně specifikovaný proces datové architektury a integrace; rozdílné požadavky na kvalitu dat napříč odděleními organizace.

Mnohdy používaný živelný přístup pro rychlou a levnou implementaci nových funkčností, nových nabízených služeb a produktů, či dokonce systémů, má za následek nestandardní vazby mezi systémy, poloimplementované datové rozhraní, nekorektní užití datového modelu, atd. Nedostatky takového přístupu se typicky projeví až časem, zejména při větších datových migracích na nové platformy. Toto dokumentují výzkumy konzultačních společností Bloor Group či Gartner, které pojednávají o tom, že více než 80 % migrací dat se oproti rozpočtu prodraží a některé z nich selžou a o 41 % se prodlouží doba na jejich převod. Jeden z nejčastěji zmiňovaných důvodů je nízká kvalita dat a zejména neočekávané typy problémů datové kvality. Přestože datová nekvalita tedy nemusí v průběhu životnosti aplikace způsobovat zásadní problémy, v okamžiku modernizace může zásadně ovlivnit dodání projektu ve slíbeném čase a ceně.

Jakmile chyba v datech vznikne, díky prointegrovanosti prostředí v organizaci se chybná data šíří dále napříč jednotlivými systémy, kde mohou způsobovat další nekonzistence. Chyba by se měla opravit přímo u zdroje, čímž by mělo automaticky dojít k její nápravě v dalších systémech. Vlastní oprava chyb ve zdroji se ovšem potýká s následujícími situacemi:

  • Chybějící vlastníci dat – v organizaci chybí osoby zodpovědné za jednotlivé byznys entity (zákazník, produkt, atd.), které mají autoritu a zodpovědnost definovat metriky kvality a rozhodovat o tom, zda a jak mají být data opravena.
  • Nestandardní požadavky na data – jednotlivé divize organizace mají různé požadavky na kvalitu dat. Dokud tyto složky fungují odděleně, problém nenastává. Objeví se v okamžiku požadavku na integraci dat napříč odděleními (typicky reporting nebo migrace). Řešení požadavků na standardizaci a opravu takových dat jsou komplikované a drahé vzhledem k objemu chyb a „nedůležitosti“ dané chyby pro určitou divizi.
  • IT zodpovědné za kvalitu dat – přestože technická implementace a provoz data quality procesů a některé opravy dat jsou v kompetenci IT, to nemůže rozhodovat a být zodpovědné za pravidla datové kvality z pohledu byznys strategie organizace.
  • Reaktivní vs. Proaktivní přístup – většina DQ programů implementuje tzv. reaktivní přístup, kdy datovou kvalitu na konkrétních datech řeší až v okamžiku, kdy se stanou problémem. Vyspělý DQ program naopak využívá proaktivní přístup k předcházení vzniku nekvality v datech nebo alespoň vyřešení nekvality předtím, než se z ní stane problém.
  • Výběr nástrojů – investice do nástroje před pochopením rozsahu, typu chyb a koncepce monitoringu a reportingu chyb většinou znamená nízkou a pomalou návratnost takové investice.

DQM proces

Základní koncept DQM procesu je pokryt několika jednoduchými kroky. Jejich správná implementace je ovšem klíčová pro úspěch a efektivitu celého programu. Nejdůležitější jsou sdílené odpovědnosti mezi IT a byznysem.

Identifikace

Jde o proces zjištění a evidence metadat o datech, zejména informace, ve kterých systémech se data o dané entitě vyskytují, definice tabulek, sloupců datových typů, atd. Jsou nutné k tomu, aby bylo vůbec možné datovou kvalitu definovat a měřit. Většinou v kompetenci IT a datové architektury.

Profiling

Neboli poznání vlastních dat v jednotlivých systémech sběrem statistik o jednotlivých atributech. Ideálně se jeví využít nástrojů určených pro datový profiling. Většinou v kompetenci IT, většinou je nutné řešit specifika způsobu uložení dat v daném systému.

Profinit

Měření & Zavedení pravidel

Pravidla datové kvality by měla být řízena primárně byznys požadavky se zohledněním IT požadavků. Kromě kvalitativních metrik zahrnujících mj. úplnost, validitu, přesnost, integritu, včasnost, konzistenci dat je dobré implementovat kvantitativní metriky zahrnující např. spokojenost byznys uživatelů, zvýšení produktivity, byznys přínos kvalitních dat nebo reálná rizika způsobená nekvalitními daty. Kvantitativní metriky jsou klíčové pro klasifikaci závažnosti chyby z byznys pohledu a nutnosti či ROI její opravy.

Monitoring & Reporting

Má na starost kontinuální vyhodnocování výsledků kontroly DQ pravidel nad daty a jejich srovnání s definovanými limity. Byznys uživatelé definují požadavky na monitoring a reporting, IT navrhuje, implementuje a provozuje monitoring datové kvality v produkci. Reporting umožňuje agregovaný přehled chyb a drill-down na jednotlivé chybové záznamy nevyhovující definovaným DQ pravidlům sloužící jako poklad k opravě.

Náprava

Jde o kontinuální proces oprav reportovaných chybných dat. Zahrnuje nejen opravu existujících dat, ale také odstranění příčiny. Opravu dat zajišťují data stewardi identifikací příčiny a místa vzniku chyb a přípravou plánu k opravě dat a zabránění jejich opakovanému vzniku.

Na trhu existuje celá řada nástrojů pro aplikační podporu implementace DQM procesu. Krabicová řešení existují zejména pro profiling dat, definici a vyhodnocování DQ pravidel a reporting chybových záznamů. Samotné opravy dat je ovšem nutné typicky realizovat v primárních systémech samotných spíše než v DQM nástroji. Z provozního hlediska je nutné brát v úvahu výkonnostní dopady DQ. Vyhodnocování složitějších (zejména konzistenčních) DQ pravidel může generovat nezanedbatelnou zátěž na sledované systémy. V případě primárních systémů toto nemusí být akceptovatelné a je nutné sledovaná data kopírovat jinam či vytvořit speciální prostředí pro DQ.

Klíčové principy pro zavedení DQM

Pro velkou iniciativu, která se snaží vyřešit všechny problémy, je většinou velmi obtížné získat podporu v oblasti zdrojů i financí. Tím spíše, že u DQM není na první pohled zřetelný přínos. Pro efektivní zahájení DQM procesu se osvědčilo mít celkovou cílovou koncepci DQM v organizaci, ale její implementaci začít v omezeném rozsahu na konkrétním projektu s konkrétními cíli, na kterém lze ukázat přínosy. Zavedení DQM není jednorázový úkol nebo projekt, ale jde o trvalý proces. Zavedení DQM je nejúspěšnější a nejpřínosnější v okamžiku, kdy ve firmě dojde ke změně uvažování o datech, jejich důležitosti a hodnotě, která v datech je. Stejně jako se vyvíjí trh, s ním byznys strategie firmy, musí se vyvíjet i cíle (a v delším časovém měřítku i koncepce) DQM. Je tedy nutné periodicky revidovat jednotlivé aspekty zavedeného procesu. V kombinaci s přístupem „začít v malém“ lze aplikovat „agilní“ přístup, kdy je celková koncepce upřesňována po jednotlivých fázích implementace častěji, než by tomu bylo u tradičního řízení procesů.

Pro zavedení DQM je nutné analyzovat byznysem požadovanou kvalitu dat (metriky a jejich hodnoty) a následně přistoupit k nápravě identifikovaných problémů. Oprava problémů bez znalosti požadavků z byznysu bývá spojena s nízkou návratností. Jedním z výsledků by mělo být jasné pojmenování DQ issues a kvantifikace, kolik činí náklady/ztráty/neefektivita/rizika, které daná nekvalita způsobuje. Pro jednodušší a rychlejší obhájení investic do DQM je ideální začít implementaci DQM v oblastech, kde lze s přiměřenými náklady dosáhnout velkého efektu. Tedy v nejpalčivějších oblastech pro byznys, které nabízí velké ROI.

Finančně i reputačně (interní reputace oddělení v rámci firmy vůči managementu či externí reputace firmy vůči zákazníkům) efektivnější než napravovat problémy způsobené nekvalitu dat je jim co nejvíce předcházet. Potenciální problémy lze identifikovat a předcházet jim už při sběru byznys požadavků, návrhu integrační architektury, či díky kontrole kvality dat v každém kroku, kde se s daty pracuje – nejlépe centrálně u integrační platformy.

Vlastníci dat a datoví stewardi musí vlastnit DQM

Datová kvalita je mnohdy vnímána jako přítěž nebo komplikace bez viditelného přínosu. Zejména vlastníci dat musí být v procesu zapojeni a motivováni tak, aby datovou kvalitu vnímali jako část své kompetence a zodpovědnosti. Začlenění DQ vybraných či agregovaných DQ metrik do KPI je jedním z efektivních způsobů pro zvýšení zodpovědnosti za DQM.

Jan Ulrych Jan Ulrych
Autor článku má více než desetileté zkušenosti v poli dat a datové integrace. Působí jako Senior Consultant ve společnosti Profinit, kde je v současné době zodpovědný za kompetenci enterprise integrace pro zákazníky. Mimo výše uvedené se zaměřuje i na další související oblasti, zejména metadata management, datovou kvalitu.
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.

Inzerce

Konec papírování, digitalizujte a usnadněte si práci!

IT Systems 3/2024V aktuálním vydání IT Systems jsme se zaměřili na vývoj digitalizace ve světě peněz, tedy v oblasti finančnictví a pojišťovnictví. Dozvíte se například, proč je aktuální směrnice PSD2 v inovaci online bankovnictví krokem vedle a jak by její nedostatky měla napravit připravovaná PSD3. Hodně prostoru věnujeme také digitalizaci státní správy a veřejného sektoru, která nabírá obrátky.