facebook LinkedIN LinkedIN - follow
IT SYSTEMS 3/2005

Platnost vs. přesnost informací

Milan Kučera


V minulosti jsem navštívit prezentaci k problematice datové kvality. S přednášející jsem diskutoval téma, zda nástroje informační kvality zajišťují přesné, nebo validní (platné) informace. To mne přivedlo k sepsání článku věnujícího se právě vztahu nástrojů informační kvality k těmto pojmům.


Co rozlišuje informační kvalita?
Informační kvalita rozlišuje základní pojmy:
· validity (platnost),
· accuracy (přesnost).

Vyhodnocení platnosti dat se provádí pomocí číselníků obsahujících příslušné doménové hodnoty. Platnost dat také posuzujeme z hlediska jejich souhlasu s obchodními pravidly společnosti. Problematičtějším pojmem je přesnost. Informační kvalita rozlišuje dvě kategorie přesnosti:
· vzhledem k náhradnímu zdroji,
· k realitě.

Přesnost vzhledem k náhradnímu zdroji
Cílem informační kvality je poskytovat přesná data ve vztahu k realitě, ovšem fyzická inspekce porovnávající data s aktuálním objektem nebo událostí může být finančně náročná. V tom případě je možné provést kontrolu přesnosti dat oproti autorizovanému zdroji, avšak tento musí obsahovat sadu informací, které kontrolujeme, a musí být známa jeho přesnost. Přesnost vzhledem k náhradnímu zdroji pak představuje vyhodnocení stupně souhlasu dat s daty obsaženými v původním (originálním) zdroji dat. Často diskutovaným číselníkem je číselník adres. Česká Republika je zde určitou raritou, neboť patří mezi státy s neexistujícím referenčním zdrojem adresních údajů. Stávající situaci jen potvrzuje existence několika oddělených číselníků, jejichž poskytovateli jsou Česká pošta a Ministerstvo práce a sociálních věcí. Naopak autoritou poskytující informace o adresách ve Spojených Státech je United State Postal Service. Podobnými autoritami ve státech Evropské Unie jsou Deutche Post v Německu, Royal Mail ve Velké Británii nebo Vicindo DataMarketing v Belgii. Vyhodnocování přesnosti adresních údajů vůči zmiňovaným číselníkům v České Republice je proto problematické, neboť není známa jejich přesnost a zároveň zde neexistuje certifikační autorita, která by verifikovala funkcionalitu nástrojů pro kontrolu adres s garantovanou kvalitou vůči zákazníkům tohoto softwaru.

Přesnost vzhledem k realitě
Zhodnocení přesnosti informací uložených ve vašich databázích ve vztahu k realitě je možné provést pouze prostřednictvím fyzické inspekce. Taková analýza se provádí v okamžiku, kdy dopady nepřesných informací jsou z hlediska obchodních procesů společnosti významné.


Přesný/validní
S tímto rozdílem se setkáváme často. Podívejme se například na níže uvedenou adresu. Jedná se o modelový příklad, přičemž provedeme předpoklad o tom, že společnost má záznam v obchodním rejstříku a záznam je minimálně validní: DataLine Consulting, a.s., Ivana Olbrachta 769, 258 01 Vlašim. Použijeme-li nástroj informační kvality, můžeme provést: · kontrolu adresy proti externímu registru adres, · kontrolu záznamu oproti registru ekonomických subjektů (RES).

Provedeme-li kontrolu adresy "Ivana Olbrachta 769, 258 01 Vlašim" zjistíme, že představuje přesný záznam oproti externímu registru (adres). Kontrolou oproti RES pak zjistíme, že kombinace + jsou přesnými vzhledem k obchodnímu registru. Budeme-li společnost hledat (provedeme fyzickou inspekci) na dané adrese, pak tuto společnost nenalezneme! Spojení přesných informací vzhledem k externímu zdroji totiž nemusí garantovat přesnost vzhledem k realitě. Daný záznam je proto pouze validní. Naopak může dojít k tomu, že adresa je identifikována jako nepřesná (oproti náhradnímu zdroji), ale ve skutečnosti se může jednat o přesnou adresu vzhledem k realitě. Podívejme se na následující alternativy z hlediska přesnosti:

1. Ivana Olbrachta 769/4, 258 01 Vlašim
Adresu nelze prohlásit za přesnou, neboť žádný z registrů neobsahuje vazbu mezi popisným a orientačním číslem pro tuto ulici. To znamená, že nástroj informační kvality opraví adresu na adresu typu 3. Náhradní zdroj neobsahuje kompletní sadu informací jež ověřujeme.

2. Ivana Olbrachta 4, 258 01 Vlašim
Adresa je opět identifikována jako nepřesná. Opět dáno obsahem registru adres.

3. Ivana Olbrachta 769, 258 01 Vlašim
Adresa je identifikována jako přesná, avšak fyzickou inspekcí by se zjistilo, že nejpřesnější adresou je adresa typu 1. Na domě totiž existuje pouze "modrá cedulka" orientačního čísla!

Nástroje analýzy informační kvality (provádějící inspekci či data cleansing) jsou schopny vyhodnocovat pouze správnost a úplnost, ale nemohou vyhodnocovat přesnost, neboť nejsou schopny provést korekce všech chybějících nebo nepřesných informací. Musíme si uvědomit, že automatizovaný data cleansing automaticky neznamená přesnost.

Závěr
Nástroje informační kvality (podporující automatizovanou inspekci, čištění) mohou společnostem pomoci identifikovat nesprávné informace. Nástroje na čištění dat pomáhají společnostem data standardizovat, obohacovat či identifikovat potenciální duplicity záznamů, validovat adresy, kontrolovat hodnoty proti doménovým číselníkům apod. V případě identifikovaných anomálií (defektů) musí organizace přijmout nápravné kroky. Zajištění přesnosti informací je pak dáno kombinací nástroje informační kvality a fyzické inspekce.

Zdroje:
Larry P. English, Improving data warehouse and business information quality, JWS 1999

Autor článku, Milan Kučera, pracuje jako senior information quality consultant ve společnosti Data to Information. Zároveň působí jako associate consultant společnosti Information Impact Internarional (USA).
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.


Inzerce

Konec papírování, digitalizujte a usnadněte si práci!

IT Systems 3/2024V aktuálním vydání IT Systems jsme se zaměřili na vývoj digitalizace ve světě peněz, tedy v oblasti finančnictví a pojišťovnictví. Dozvíte se například, proč je aktuální směrnice PSD2 v inovaci online bankovnictví krokem vedle a jak by její nedostatky měla napravit připravovaná PSD3. Hodně prostoru věnujeme také digitalizaci státní správy a veřejného sektoru, která nabírá obrátky.