www.systemonline.cz

Tematické sekce

ERP systémy

CRM systémy

Plánování a řízení výroby

AI a Business Intelligence

DMS/ECM - Správa dokumentů

HRM/HCM - Řízení lidských zdrojů

EAM/CMMS - Správa majetku a údržby

Účetní a ekonomické systémy

ITSM (ITIL) - Řízení IT

Cloud a virtualizace IT

IT Security

Logistika, řízení skladů, WMS

IT právo

GIS - geografické informační systémy

Projektové řízení

Trendy ICT

E-commerce B2B/B2C

CAD/CAM/CAE/PLM/3D tisk

Branžové sekce

Automobilový průmysl

Banky a finanční organizace

Energetika a utility

Potravinářský průmysl

Stavebnictví - BIM, CAFM

Veřejný sektor a zdravotnictví

Inzerce

SystemNEWS


	Přihlaste se k odběru zpravodaje SystemNEWS na LinkedIn, který každý týden přináší výběr článků z oblasti podnikové informatiky

Archiv SystemNEWS

Přehledy

Přehledy IS
APS (20)
BPM - procesní řízení (23)
Cloud computing (IaaS) (10)
Cloud computing (SaaS) (32)
CRM (52)
DMS/ECM - správa dokumentů (20)
EAM (17)
Ekonomické systémy (68)
ERP (75)
HRM (28)
ITSM (6)
MES (34)
Řízení výroby (36)
WMS (29)
Dodavatelé IT služeb a řešení
Datová centra (25)
Dodavatelé CAD/CAM/PLM/BIM... (41)
Dodavatelé CRM (38)
Dodavatelé DW-BI (50)
Dodavatelé ERP (68)
Informační bezpečnost (49)
IT řešení pro logistiku (45)
IT řešení pro stavebnictví (26)
Řešení pro veřejný a státní sektor (27)

Inzerce

Partneři webu

Best WordPress Themes

Hlavní strana -> Časopis IT Systems -> Rok 2006 -> Business Intelligence -> Datová kvalita pod lupou

Business Intelligence , AI a Business Intelligence

Datová kvalita pod lupou

Vladimír Kyjonka

Chyby se v datech vyskytují od počátku jejich automatizovaného zpracování. Vývoj IT v posledních letech vedl a stále vede k tomu, že se elektronicky zpracovává stále více dat ze stále více oblastí. Na druhé straně stále více činností je na elektronickém hromadném zpracování dat závislých. Velká míra nekvalitních dat významně snižuje jejich správnou použitelnost.

Nesprávná data vedou k nesprávným výsledkům jejich zpracování a v důsledku ke špatnému fungování podnikových procesů s následkem ekonomických ztrát. Dalším důsledkem nekvality je vynakládání prostředků na správu, zpracování, archivaci nesprávných, nesmyslných a nadbytečných dat, což představuje přímé ekonomické ztráty. Tento jev je v literatuře charakterizován jako zpracování „garbage in – garbage out“. Míra negativních dopadů zpracování nekvalitních dat se stává významnější se zvětšováním rozsahu a složitosti informačních systémů a zvyšováním důležitosti IT v podnikových procesech.

Proč nekvalitní data…

Zdrojem chyb a dalších typů nekvalit jsou v zásadě dvě skutečnosti. První důvod je zjevný: data, se kterými pracují počítačové systémy, do nich vkládají lidé. A lidé dělají chyby (překlepy, zápisy do nesprávných polí, neznalost, vlastní „tvořivost“ apod.). Druhý důvod je dán tím, že informační systémy podniků dnes sestávají z mnohdy autonomních agend, zaměřených na různé oblasti, založených na různých technologiích, vytvořených různými dodavateli v různých dobách. Tato inkonzistence způsobuje, že i data, která jsou prostá chyb způsobených přímo člověkem, nedokáží jednotně (a tudíž správně) identifikovat a popsat konkrétního jedince, produkt či jiný subjekt.

…a proč to vadí právě teď

Dnešním trendem v oblasti zpracování podnikových dat je integrace. V zásadě jde o snahu sjednotit fungování jednotlivých částí informačních systémů podniku navzájem a současně je propojit a ztotožnit s fungováním vlastních podnikových procesů (business procesů). Cílem je zefektivnit, zpřehlednit, zrychlit, zpružnit a v důsledku zlevnit jejich realizaci a vytvořit pro podnik konkurenční výhodu. V praxi jsou k této problematice různé přístupy, které se liší zaměřením úrovní, hloubkou či technikou integrace – například datové sklady (DW) a business inteligence (BI), datová integrace (DI), podniková aplikační integrace (EAI), integrace podnikových procesů (BPI), architektura informačního hubu (IHA), podniková sběrnice (informačních) služeb (enterpeise service hub – ESH), master data management (MDM) atd. Pro všechny přístupy je však společné, že zajišťují vzájemné automatizované předávání a sdílení dat mezi všemi částmi podnikových systémů. Pokud jsou tato data v některé části systému nekvalitní, automaticky se chyby šíří i do ostatních částí. Pokud je obsah dat v různých částech vzájemně nekonzistentní, zcela to neguje účel integrace

Datová kvalita pod lupou

Snaha vypořádat se s nekvalitními daty byla vždy v jisté (různě velké) míře součástí softwarových řešení zabývajících se hromadným zpracováním dat. Funkce, které tato řešení pro tento účel obsahovala, se však vyznačují velmi omezenou schopností se s nekvalitou vyrovnat. Možnost opětovného použití daných dat se blížila nule, stejně jako možnost zobecnění. Tento přístup k řešení kvality dat se ukázal jako velmi pracný a nákladný, a přitom málo účinný.
Problematikou kvality dat se dlouhodobě zabývá několik mezinárodních společností (významnější jsou napříkld Trillium, First- Logic/Business Objects), které se na tuto agendu specializují a disponují komerčními produkty pro čištění dat. Jejich řešení se primárně vyvíjí pro severoamerický trh a je zaměřeno na střední a velké (v severoamerickém měřítku) instituce. V důsledku toho vyžadují jejich řešení pro možné nasazení v našich podmínkách značné přizpůsobení. Nejde přitom o tradiční „lokalizaci“, jako je tomu u jiných softwarových produktů (tedy zajištění, aby daný program komunikoval s jeho uživateli v národním jazyce). To je většinou relativně snadná, i když pracná úloha.
V případě řešení pro zajištění kvality dat je nutné respektovat všechny zákonitosti nejen jazyka, ale i zvyklostí při jeho používání včetně typů vyskytujících se chyb, způsobu evidence nejrůznějších údajů, společenských a legislativních pravidel, dostupnosti a obsahu různých rejstříků a slovníků (adresy, podnikatelské subjekty, motorová vozidla, jména a příjmení a jejich konvence, ...) a dalších součástí (seznamy typických chyb a způsobů jejich opravy, statistické charakteristiky jazykových elementů, formáty zápisu různých typů údajů atd.). Je v nich třeba doplnit některé funkce, které pro primární (anglické) prostředí nebyly vytvořeny, protože pro ně nemají smysl. Na druhou stranu – obsahují jiné funkce, které nelze v odlišném jazykovém a kulturním prostředí použít.
Kromě toho jsou pro většinu našich organizací tato řešení příliš nákladná (nesrovnatelně vyšší náklady na nasazení, přizpůsobení a provozování proti jiným součástem podnikových systémů). Navíc dodavatelské firmy u nás ani v blízkém okolí nemají zastoupení, což limituje lokální podporu jejich řešení.
Vzniká zde mezera na trhu pro čistě lokální řešení specializovaná na řízení datové kvality, která vyvinuly lokální firmy. Na českém a slovenském trhu mezi ně patří například společnost Adastra, jejíž aplikaci Purity.360 využívají již desítky zákazníků jako Český Telecom, ČSOB a ČSOB Pojišťovna, HVB Bank, Všeobecná úverová banka či Consumer Finance Holding.

Optimální řešení

Cílem je nabídnout řešení, jež lze v podnikových systémech nasadit pro zajištění kvality dat a které bude použitelné, přínosné a dostupné jak v lokálním prostředí (tj. bude pokrývat specifika národního jazykového a kulturního prostředí a bude finančně dostupné i pro menší a střední organizace z pohledu lokálního trhu), tak i v jiných jazykových oblastech, a dále získat a rozvinout znalosti a praktické zkušenosti z oblasti řízení kvality dat.
Aby bylo řešení úplné, mělo by se skládat z několika částí, které jako celek postihují celou problematiku kvality dat, ale je možné je využít i jednotlivě, každou samostatně. Jedná se o následující součásti:

softwarový nástroj pro analýzu, čištění, unifikaci a monitorování kvality dat, jeho podpora a rozvoj,
metodika řízení kvality dat,
implementační team, nejlépe vybavený teoretickým i praktickým know-how z oblasti řízení kvality dat a realizace projektů řízení kvality dat v praxi (technickými, metodickými a obchodními znalostmi z této oblasti).

Co (a jak) řeší optimální softwarový nástroj

Vlastním softwarovým nástrojem by měl být nezávislý a otevřený systém, který lze nasadit do jakéhokoliv IT prostředí a zajišťuje následující okruhy činností:

1. Identifikace, kvantifikace, klasifikace a analýza chyb a problémů v datech.
Cílem tohoto okruhu činností je poznat stav kvality dat a na jeho základě stanovit postupy, pravidla a standardy pro zvýšení a udržení kvality dat. Současně podle nastavených pravidel a mezí identifikuje záznamy a skupiny záznamů, které:

systém automaticky opraví a upraví pro dosažení vyšší kvality,
systém opraví a upraví na základě explicitního rozhodnutí (případně ověření),
bude třeba ručně opravit z důvodu velmi nízké kvality, neúplnosti nebo zjevné nesprávnosti, již nelze automaticky opravit.

2. Zpracování dat pomocí čistících a unifikačních algoritmů, v rámci něhož se automatizovaně provede:

čištění – rozpoznání (parsing) obsahu datových položek, opravy datových položek (odstranění překlepů, nesprávných zápisů, formátů apod.),
standardizace – převod datových položek na jednotný formát, který je pak možno použít pro porovnání s rejstříky a číselníky a pro porovnání hodnot datových položek spravovaných různými systémy,
obohacení – doplnění chybějících položek, pokud je to možné (např. chybějících částí adresy),
unifikace – určení všech záznamů, které představují jeden konkrétní subjekt – např. nalezení a jednoznačné označení všech evidovaných záznamů o konkrétní osobě, adrese, vozidle atd.,
deduplikaci – výběr nejlepšího záznamu, který bude nadále reprezentovat konkrétní subjekt,
identifikaci – pro nové datové záznamy – určení konkrétního subjektu (například osoby), ke kterému záznam patří.

3. Měření, monitorování a reportování kvality dat – vytváření reportů, statistik a zpráv o stavu kvality dat vyjádřené jak číselnými, tak kvalitativními ukazateli, které se vytvářejí pravidelně během procesu analýzy a zpracování a slouží jednak jako podklady pro analýzu kvality dat, jednak pro sledování účinnosti celého řešení.

Nástroj je možno použít jak jednorázově – aplikovat jej na všechna data již uchovávaná v systému pro jednorázové zlepšení jejich kvality – tak rutinně pro všechna data nově vstupující do systému s cílem zachytit skutečné a potenciální problémy už v okamžiku jejich vzniku. Pro tuto druhou možnost musí systém zajistit práci v reálném čase (okamžitá odezva při interaktivním vstupu dat).
Nástroj lze zasadit do jakékoliv integrační architektury (DW & BI, ETL, EAI, BPI, MDM, ...) nezávisle na konkrétních aplikacích podnikového informačního systému a technologických platformách, které tyto aplikace využívají.
Je výhodou, pokud nasazení tohoto softwarového nástroje nevyžaduje využívání jiných komerčních softwarových produktů (databázové systémy, aplikační servery a portály), které by generovaly další pořizovací a provozní náklady.

Nezbytné doplňky a příslušenství

Aby se produkt dal vícenásobně efektivně nasazovat, musí obsahovat sady číselníků, rejstříků a pravidel, které se opakovaně využívají a rozvíjejí (znalostní báze). Dodavatel je získává buď z veřejných zdrojů (registry adres, registry ekonomických subjektů, číselníky jmen a příjmení apod.), nebo je vytvářejí a doplňují v průběhu nasazení v konkrétních řešeních (například pravidla pro automatické opravy).
Tato znalostní báze je nedílnou součástí nástroje a pro správné využívání v rutinním nasazení se pravidelně udržuje a aktualizuje.

Sám software vše nevyřeší

Žádný sebelepší nástroj společnostem příliš nepomůže, pokud daná firma neví, jak ho správně použít.
Podstatnou součást jakéhokoliv řešení představuje sada metodik, které v zásadě shrnují zkušenost, jež už získali jiní. Tyto metodiky obsahují pravidla, doporučení a standardy například pro následující oblasti:

implementace softwarového nástroje (správná instalace, konfigurace, nastavení prostředí, začlenění do celkové architektury atd.),
postupy, procesy a pravidla pro další činnosti související s nasazením produktu (plánování automatických procesů, řízení a plánovaní poloautomatických činností, audit kvality dat, provádění a vyhodnocování manuálního čištění dat, workflow atd.),
řízení datové kvality podniku (politika datové kvality, standardy, business procesy reflektující potřeby řízení datové kvality, řízení a motivace lidských zdrojů v procesu řízení datové kvality atd.),
zapojení produktu do různých integračních architektur,
metodika pro zvláštní agendy (identifikace klienta, identifikace adres, identifikace motorových vozidel, houselholding atd.).

Datová kvalita ve středu zájmu celé firmy

...nebo alespoň vrcholového managementu. Oblast řízení kvality dat musí být součástí všech podnikových činností, a ne pouze doménou oddělení IT. Nízká kvalita dat má dopad právě do reálného života společností, a hlavně v mnoha případech znamená, že jsou ve špatné kvalitě nakonec dodány i výsledky jinak dobře odvedené práce. A to je opravdu škoda.
Autor je ředitelem divize Purity ve společnosti Adastra.

Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.

Tweet

Inzerce
APN Promise: partnerství pro skutečný růst

Už více než 30 let pomáháme firmám naplno využívat technologie pro jejich efektivní růst. Z malé společnosti v Polsku jsme se vypracovali na mezinárodního hráče, který podporuje rozvoj podniků na mnoha trzích. Naším cílem je dodávat moderní řešení a budovat dlouhodobé vztahy, které přinášejí výsledky.

» Více

Inzerce
Časopis IT Systems / Odborná příloha

Více o časopisu IT Systems
Archiv časopisu IT Systems

Oborové a tematické přílohy

Inzerce
Kalendář akcí

srpen - 2025
Po Út St Čt Pá So Ne
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
1 2 3 4 5 6 7

IT Systems podporuje

23.9. PragVue 2025

23.9. Virtuální konference Jak splnit nový zákon o kybernetické...

25.9. Cyber Attacks 2024

1.10. Cyber Attacks 2025

21.10. Bezpečnosť a dostupnosť dát 2025

Formulář pro přidání akce

Další vybrané akce

13.8. Webinář: Jak efektivně řídit obchodní aktivity ve firmě?...

29.9. The Massive IoT Conference

Další akce

© 2001 - 2025 CCB spol. s r.o. ISSN 1802-615X
Tvorba webových stránek Brno

RSS kanál | Ceník inzerce | Zprávy | Katalog | Soutěže | Trends | Tisk stránky | Zásady ochrany osobních údajů
SystemNEWS (newsletter): Archiv | Inzerce | Přihlášení || SystemOnLine.cz: Kontakty | Inzerce

LinuxEXPRES.cz | OpenOffice.cz | ERPforum.cz | CRMforum.cz

Mobilní verze

Strukturované hledání

srpen - 2025
Po	Út	St	Čt	Pá	So	Ne
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31
1	2	3	4	5	6	7

23.9.	PragVue 2025
23.9.	Virtuální konference Jak splnit nový zákon o kybernetické...
25.9.	Cyber Attacks 2024
1.10.	Cyber Attacks 2025
21.10.	Bezpečnosť a dostupnosť dát 2025

13.8.	Webinář: Jak efektivně řídit obchodní aktivity ve firmě?...
29.9.	The Massive IoT Conference