facebook LinkedIN LinkedIN - follow
IT SYSTEM 3/2004

Kvalitní data znamenají kvalitní rozhodování

Martin Schiller


Množství zpracovávaných dat roste dnes tak rychle, že se v nich běžný smrtelník mnohdy dokáže stěží vyznat. Jejich analýza je však podkladem pro mnohdy závažná strategická rozhodnutí, která zásadním způsobem ovlivňují business podniku. Co udělat, aby výsledky analýz byly korektní? Je třeba mít k dispozici správné vstupní informace, aby při jejich zpracování nedocházelo ke znehodnocení výstupních analýz? Následující článek projednává o základních problémech znečištěných dat a jejich konkrétních dopadech.


Z průzkumů prováděných mezi IT manažery vyplynulo zjištění, že řada organizací provozujících sofistikované systémy „business intelligence“ pro podporu rozhodování, ponechává otázku čistoty a kvality dat jaksi stranou. Přitom i ten nejlepší analytický systém není schopen podat pravdivé informace, jestliže data, ze kterých vychází, jsou zkreslená. Dnes si i tito manažeři začínají uvědomovat důležitost kvality dat a poohlížejí se po odpovídajícím řešení. Jednou z možností je využít profesionálních nástrojů pro čištění dat. Co musí takový specializovaný systém zvládnout? V zásadě lze proces čištění dat rozdělit do několika fází:

Analýza
Proces analýzy (investigation) zkoumá charakter vstupních dat, typy a formáty jednotlivých záznamů; přičemž zpravidla odhalí informace, které byly předtím skryté z důvodu nekonzistence dat, chyb, nestandardních formátů atd. Analýza může zahrnovat:

· identifikace typu záznamu (podle přednastavených pravidel určí, zda aktuální záznam obsahuje jméno zákazníka, adresu, typ produktu atd.),
· rozpoznání titulů, zkratek, vazeb,
· identifikace obecných údajů v záznamech (datum, telefonní číslo atd.) a instrukčních frází („odeslat“, „postoupit“ atd.),
· frekvenční analýza („Česká národní banka“ 1550 výskytů, „ČNB“ 640 výskytů, „Ceska narodni banka“ 85 výskytů),
· reportování výsledků inspekce dat.

Standardizace
Vstupní data zpravidla přicházejí z různých systémů v různých formátech, standardizace zajistí jednotnou reprezentaci informací pro další zpracování. Proces standardizace může zahrnovat:

· transformace datových položek podle předdefinovaných pravidel,
· identifikace jednotlivých položek v záznamu,
· formátování položek do konzistentního tvaru,
· normalizace datových elementů s ohledem na jazykové a národnostní specifikace,
· konverze datových typů.

Výsledkem standardizace je potom například konzistentní záznam zákazníka v jednotném formátování, ať pochází z libovolného zdroje:

vstupní záznam výsledek standardizace
ABC, s. r. o. křestní jméno: Jaroslav
Jarosl. Jiskra, ing příjmení: Jiskra
Werichova 954/13 titul: Ing.
Praha 5-Hlubočepy název firmy: ABC, s. r. o
15200 ulice: Werichova
tel.: (02)56781234 číslo popisné: 954
číslo orientační: 13
obec: Praha 5
část obce: Hlubočepy
PSČ: 152 00
tel.: +420 256 781 234

Obohacení informací (enrichment)
V tomto procesu jsou data dokompletována, opravena a rozšířena o informace z dalších (interních či externích) zdrojů – číselníku adres, firem, obyvatelstva atd. Například v případě adresy je testováno, zda daná kombinace ulice, čísla, města a PSČ existuje, chybějící údaje jsou doplněny a chybné opraveny. V případě mezinárodních dat je použito pravidel a číselníků specifických pro příslušnou zemi u každého záznamu. Při tomto „zušlechťování“ dat jsou použity sofistikované metody a algoritmy, opírající se o dlouholeté zkušenosti v této oblasti.

Hledání souvislostí (linking)
Při precizním propojování dat jsou identifikovány vazby mezi individuálními záznamy – osoby patřící do stejné firmy, lidé žijící ve stejné domácnosti, rodinné vztahy atd. Identifikace těchto vazeb představuje nový typ informací, které mohou výrazně zefektivnit komunikaci s uvedenými subjekty. Proces propojování dat může zahrnovat:
· identifikace a seskupování údajů, reprezentujících jednu položku (zákazník, produkt, místo atd.),
· odstranění duplicit,
· identifikaci vztahů mezi subjekty,
· sdílení a/nebo agregace informací v rámci skupiny položek.

Integrace
Integrovaný přístup umožňuje organizacím implementovat jednotný proces kontroly a zušlechťování kvality dat skrze celý podnik. Tento proces reprezentuje standard pro datovou kvalitu a zajišťuje, že všechna data vstupující do kritických business systémů tomuto standardu odpovídají. Mezi klíčové vlastnosti pro celopodnikovou implementaci jednotného systému kvality dat patří:

· procesní konzistence – co se jednou nakonfiguruje a vyladí, je možné vícekrát implementovat bez nutnosti dalšího kódování,
· globální data – podpora mnohojazyčných a mnohonárodnostních dat, různá kódování,
· flexibilita – uživatelé mohou přizpůsobovat aplikaci měnícím se podmínkám a požadavkům jednoduše modifikací nadefinovaných pravidel.

Současné nástroje pro čištění dat nabízejí uživatelům vysoký komfort obsluhy. Každý z uvedených procesů lze snadno konfigurovat prostřednictvím grafického uživatelského rozhraní, pomocí kterého uživatelé definují, optimalizují a implementují pravidla, která pak řídí procesy datové kvality.

Trillium Software System
Jedním z významných zástupců nástrojů pro čištění dat, které je lokalizováno pro české potřeby a prostředí, je Trillium Software System. Tato technologie je svou výkonností a cenou určena především pro nasazení v celopodnikovém měřítku.
Čištění dat s tímto nástrojem je možné provozovat jak samostatně v dávkovém režimu, tak jako součást jiných podnikových aplikací. Pro tyto účely je k dispozici API rozhraní, pomocí něhož je možné transparentně volat jednotlivé moduly z externích aplikací. Pro rozšířené ERP/CRM systémy (SAP, Siebel) a ETL nástroje (Informatica, Oracle Warehouse Builder atd.) jsou dodávány již hotové konektory.

Čištění dat je důležité v mnoha oblastech podnikání, obzvláště tam, kde se pracuje s osobními či přesně vydefinovanými údaji. V komerční sféře má pak kvalita uvedených informací přímý vliv na kvalitu poskytovaných služeb. Největší přínos mají nástroje pro čištění dat především pro společnosti s desítkami tisíc zákazníků, jako jsou například operátoři pevných a mobilních sítí, bankovní domy, pojišťovny, poskytovatelé internetu, internetové obchody, poskytovatelé internetových služeb apod. V uvedených příkladech pak tyto nástroje přímo spolupracují s příslušnými moduly informačního systému a automaticky „čistí“ veškerá zadávaná vstupní data, ať již zasílaná z internetu či manuálně vkládaná operátorkou v call-centru. Tím je již od počátku dosaženo maximální integrity dat, na jejichž základě můžete kvalitně rozhodovat.

Autor článku, Martin Schiller, je Product managerem společnosti Sybase ČR.

Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.


Inzerce

Konec papírování, digitalizujte a usnadněte si práci!

IT Systems 3/2024V aktuálním vydání IT Systems jsme se zaměřili na vývoj digitalizace ve světě peněz, tedy v oblasti finančnictví a pojišťovnictví. Dozvíte se například, proč je aktuální směrnice PSD2 v inovaci online bankovnictví krokem vedle a jak by její nedostatky měla napravit připravovaná PSD3. Hodně prostoru věnujeme také digitalizaci státní správy a veřejného sektoru, která nabírá obrátky.