- Přehledy IS
- APS (20)
- BPM - procesní řízení (22)
- Cloud computing (IaaS) (10)
- Cloud computing (SaaS) (33)
- CRM (51)
- DMS/ECM - správa dokumentů (20)
- EAM (17)
- Ekonomické systémy (68)
- ERP (79)
- HRM (27)
- ITSM (6)
- MES (32)
- Řízení výroby (36)
- WMS (29)
- Dodavatelé IT slueb a řeení
- Datová centra (25)
- Dodavatelé CAD/CAM/PLM/BIM... (39)
- Dodavatelé CRM (33)
- Dodavatelé DW-BI (50)
- Dodavatelé ERP (71)
- Informační bezpečnost (50)
- IT řeení pro logistiku (45)
- IT řeení pro stavebnictví (26)
- Řeení pro veřejný a státní sektor (27)
Hlavní partner sekce
Tematické sekce
ERP systémy
CRM systémy
Plánování a řízení výroby
AI a Business Intelligence
DMS/ECM - Správa dokumentů
HRM/HCM - Řízení lidských zdrojů
EAM/CMMS - Správa majetku a údrby
Účetní a ekonomické systémy
ITSM (ITIL) - Řízení IT
Cloud a virtualizace IT
IT Security
Logistika, řízení skladů, WMS
IT právo
GIS - geografické informační systémy
Projektové řízení
Trendy ICT
E-commerce B2B/B2C
CAD/CAM/CAE/PLM/3D tiskBranové sekce
![]() | |
| Přihlaste se k odběru newsletteru SystemNEWS, který kadý týden přináí výběr článků z oblasti podnikové informatiky | |
![]() | |
Partneři webu
Business Intelligence , AI a Business Intelligence
Metody a procesy čitění dat
Ing. Jiří Bohuslav
Bouřlivý rozvoj informačních technologií způsobil, e systémy business intelligence ji automaticky zaujímají své místo v podnikových systémech. Přesto se dá říci, e mnoho rozhodovacích procesů jetě není na těchto systémech zaloeno nebo informace, je tyto systémy poskytují, nejsou zcela nebo správně vyuity.
Firmy téměř vdy uchovávají své informace v OLTP (on-line transaction processing) systémech, které zachycují jednotlivé detailní operace. OLTP systém vak není vůbec vhodný pro zodpovězení určitých analytických dotazů (Jaké byly trendy prodeje naich výrobků v minulých pěti letech? Jaký je procentuální nárůst prodeje výrobků mezi dvěma kvartály?), velmi sloitě lze získat agregovaná data, obsahuje spoustu dat, která pro kvalitní rozhodování vůbec nepotřebujeme, navíc OLTP systém není optimalizován pro sloité uivatelské dotazy.
Oblast business intelligence je specifický obor, který je zaměřen převáně na poskytnutí komplexního pohledu na data koncovému uivateli a získání informací potřebných pro správné rozhodnutí. Základním krokem v procesu získání dat z provozních systémů pro kvalitní rozhodování je analýza, konsolidace a čitění zdrojových dat. Z existujících dat (např. o chování zákazníků, objemech prodeje v různých regionech) je třeba vytěit maximum informací, je mohou při správném vyuití poskytnout výraznou konkurenční výhodu.
Obvyklým řeením pro získání kvalitních konsolidovaných dat je vybudování datového skladu (data warehouse), datových tri (data mart), případně nadstavbových OLAP (on-line analytical processing) aplikací, neméně důleité je zvolení vhodné technologie pro prezentaci dat uivateli (reporting), která navíc umoní intuitivním způsobem analyzovat data ve vícerozměrné struktuře, sestavovat ad hoc dotazy. Datový sklad se tím pádem stane jedním velkým centralizovaným zdrojem informací pro celou firmu.
Pochopitelně je v zájmu firmy, aby data v datovém skladu byla veobecně přijata jako jedna verze pravdy. Jde o to, e v datovém skladu se střetávají data z různých zdrojových systémů, ale i různá externí data, ručně udrované evidence a podobně. Přitom by měl být kladen velký důraz na zaručenou čistotu, tedy kvalitu dat. V datech přenáených do datového skladu se téměř vdy objevují duplicity a datové chyby, které není jednoduché odhalit. Tyto nepřesnosti způsobuje proměnlivé názvosloví (str. 56/stránka 56), pouívání, či nepouívání diakritiky (Frantiek Novák/Frantisek Novak), pravopisné a jiné chyby, které způsobují nekonzistenci a je nutné je rozpoznat. Větinou neexistuje korekce chyb ve zdrojovém systému, proto je třeba nekonzistence dohledat, opravit a záznamy logicky spojit do jednoho při plnění datového skladu (ETL proces). Zajímavým postřehem je, e tento proces čitění dat při plnění datového skladu můe pak zpětně slouit jako opravná zpětná vazba pro zdrojový provozní informační systém. Udává se, e a 15 % vech zdrojových dat je nekonzistentních nebo nesprávných.
Zkusme si teď některé metody a procesy čitění dat popsat podrobněji:
Dále je třeba definovat vstupní atributy a roli, jakou údaje ve vstupních datech hrají. Role indikuje, jaký druh dat daný atribut reprezentuje. Rolí můe být několik, od těch obecnějích, jako je osoba či adresa, a po konkrétnějí, jako je křestní jméno, oslovení, město, země apod.
Posledním krokem je definice výstupních komponent. Kadá komponenta reprezentuje konkrétní část jména nebo adresy, jako je oslovení, titul, standardizované křestní jméno, prostřední jména, jméno ulice, číslo domu apod., nebo obecnějí entitu, jako adresu, jméno atd. Dále mohou být přidány výstupní komponenty reprezentující příznaky a chybové hláky zpracování jednotlivých záznamů. Příznaky indikují, zda byl daný záznam, nebo jeho část, úspěně analyzován a nalezen v databázi srovnávacího software. Tyto komponenty mohou slouit k oddělení úspěně zpracovaných záznamů od záznamů obsahujících chyby.
Prvním krokem při pouití metody Match-Merge je definice porovnávacích pravidel. Pravidel můe být více, záznamy jsou označeny jako identické, pokud splní jedno z následujících pravidel:
1. Porovnání zaloené na podmínce například:
Obr. 1: Postup při řeení data profilingu pomocí nástrojů Oracle
Transformace dat zajiující čitění atributů se v některých případech nedají dostatečně jednodue zobecnit, proto se v případě, e ádnou z uvedených metod a nástrojů nelze pouít, neobejdeme bez psaní vlastních transformací. Pro řeení sloitějích situací, kdy je potřeba při čitění dat vyuívat robustnějích metod, existuje řada dalích, cenově samozřejmě mnohem náročnějích, specializovaných produktů (např. Trillium Software od společnosti Harte-Hanks, SAS Data Quality Solution, Firstlogic součást Business Objects, Melissa Data).
Autor působí ve společnosti Sophia Solutions.

Firmy téměř vdy uchovávají své informace v OLTP (on-line transaction processing) systémech, které zachycují jednotlivé detailní operace. OLTP systém vak není vůbec vhodný pro zodpovězení určitých analytických dotazů (Jaké byly trendy prodeje naich výrobků v minulých pěti letech? Jaký je procentuální nárůst prodeje výrobků mezi dvěma kvartály?), velmi sloitě lze získat agregovaná data, obsahuje spoustu dat, která pro kvalitní rozhodování vůbec nepotřebujeme, navíc OLTP systém není optimalizován pro sloité uivatelské dotazy.
Oblast business intelligence je specifický obor, který je zaměřen převáně na poskytnutí komplexního pohledu na data koncovému uivateli a získání informací potřebných pro správné rozhodnutí. Základním krokem v procesu získání dat z provozních systémů pro kvalitní rozhodování je analýza, konsolidace a čitění zdrojových dat. Z existujících dat (např. o chování zákazníků, objemech prodeje v různých regionech) je třeba vytěit maximum informací, je mohou při správném vyuití poskytnout výraznou konkurenční výhodu.
Obvyklým řeením pro získání kvalitních konsolidovaných dat je vybudování datového skladu (data warehouse), datových tri (data mart), případně nadstavbových OLAP (on-line analytical processing) aplikací, neméně důleité je zvolení vhodné technologie pro prezentaci dat uivateli (reporting), která navíc umoní intuitivním způsobem analyzovat data ve vícerozměrné struktuře, sestavovat ad hoc dotazy. Datový sklad se tím pádem stane jedním velkým centralizovaným zdrojem informací pro celou firmu.
Pochopitelně je v zájmu firmy, aby data v datovém skladu byla veobecně přijata jako jedna verze pravdy. Jde o to, e v datovém skladu se střetávají data z různých zdrojových systémů, ale i různá externí data, ručně udrované evidence a podobně. Přitom by měl být kladen velký důraz na zaručenou čistotu, tedy kvalitu dat. V datech přenáených do datového skladu se téměř vdy objevují duplicity a datové chyby, které není jednoduché odhalit. Tyto nepřesnosti způsobuje proměnlivé názvosloví (str. 56/stránka 56), pouívání, či nepouívání diakritiky (Frantiek Novák/Frantisek Novak), pravopisné a jiné chyby, které způsobují nekonzistenci a je nutné je rozpoznat. Větinou neexistuje korekce chyb ve zdrojovém systému, proto je třeba nekonzistence dohledat, opravit a záznamy logicky spojit do jednoho při plnění datového skladu (ETL proces). Zajímavým postřehem je, e tento proces čitění dat při plnění datového skladu můe pak zpětně slouit jako opravná zpětná vazba pro zdrojový provozní informační systém. Udává se, e a 15 % vech zdrojových dat je nekonzistentních nebo nesprávných.
Zkusme si teď některé metody a procesy čitění dat popsat podrobněji:
Name-Address Cleansing
Umoňuje čitění jmen a adres ve zdrojových datech. Nalézá a opravuje chyby a nekonzistence porovnáváním vstupních dat s knihovnami dat často dodávaných třetí stranou. Chyby a nekonzistence ve vstupních datech jsou eliminovány:- analýzou a rozdělením jmen a adres vstupních dat na jednotlivé části,
- převedením jmen a adres na standardní formát podle konvencí dané země,
- doplněním jmen a adres o dalí údaje, jako je pohlaví, kód státu, obchodní nebo geografické informace apod.
Dále je třeba definovat vstupní atributy a roli, jakou údaje ve vstupních datech hrají. Role indikuje, jaký druh dat daný atribut reprezentuje. Rolí můe být několik, od těch obecnějích, jako je osoba či adresa, a po konkrétnějí, jako je křestní jméno, oslovení, město, země apod.
Posledním krokem je definice výstupních komponent. Kadá komponenta reprezentuje konkrétní část jména nebo adresy, jako je oslovení, titul, standardizované křestní jméno, prostřední jména, jméno ulice, číslo domu apod., nebo obecnějí entitu, jako adresu, jméno atd. Dále mohou být přidány výstupní komponenty reprezentující příznaky a chybové hláky zpracování jednotlivých záznamů. Příznaky indikují, zda byl daný záznam, nebo jeho část, úspěně analyzován a nalezen v databázi srovnávacího software. Tyto komponenty mohou slouit k oddělení úspěně zpracovaných záznamů od záznamů obsahujících chyby.
Match-Merge
Pomocí této metody se na základě předem definovaných pravidel dají určit záznamy, které reprezentují stejná data, a podle dalích pravidel se tyto záznamy dají sloučit do jediného (obr. 1). Tato metoda spolu s metodou Name-Address poskytuje nástroj pro jednoznačnou identifikaci kontaktních informací o zákaznících.Prvním krokem při pouití metody Match-Merge je definice porovnávacích pravidel. Pravidel můe být více, záznamy jsou označeny jako identické, pokud splní jedno z následujících pravidel:
1. Porovnání zaloené na podmínce například:
- přesná shoda záznamy musí být identické,
- standardizovaná přesná shoda záznamy musí být identické, ignorují se malá/velká písmena, mezery a nealfanumerické znaky,
- podobnost lze specifikovat procentuální hodnotu podobnosti, kterou musí záznamy splňovat, aby byly označeny za identické,
- standardizovaná podobnost,
- částečný název jeden záznam se vyskytuje jako podřetězec ve druhém záznamu počínaje prvním slovem,
- detekce zkratek a akronym.
- srovnání iniciál se jmény, kdy se za identické povaují záznamy jako P. a Petr,
- srovnání podřetězců se jmény, za identické se povaují například záznamy Rob a Robert,
- podobnost lze specifikovat procentuální hodnotu podobnosti, kterou musí záznamy splňovat, aby byly označeny za identické,
- detekce sloených jmen,
- srovnání oslovení vůči křestnímu jménu a příjmení například p. Novák a Martin Novák,
- detekce chybějících spojovníků,
- detekce přehozeného křestního jména a příjmení.
| Row | FirstName | LastName | SSN | Address | Unit | Zip |
|---|---|---|---|---|---|---|
| 1 | Jane | Doe | NULL | 123 MainStreet | NULL | 22222 |
| 2 | Jane | Doe | 111111111 | NULL | NULL | 22222 |
| 3 | J. | Doe | NULL | 123 MainStreet | Apt 4 | 22222 |
| 4 | NULL | Smith | 111111111 | 123 MainStreet | Apt 4 | 22222 |
| 5 | Jane | Smith-Doe | 111111111 | NULL | NULL | 22222 |
| Row | FirstName | LastName | SSN | Address | Unit | Zip |
|---|---|---|---|---|---|---|
| 1 | Jane | Doe | 111111111 | 123 MainStreet | Apt 4 | 22222 |
Data Profiling
Metoda, která umoňuje zkoumat data z hlediska struktury, identifikovat anomálie, provádět analýzu atributů, referenční analýzu, případně tzv. custom analýzu, kde si pravidla definuje sám uivatel. Řeení profilace a čitění dat je realizováno v následující posloupnosti kroků:- definice zdrojových dat tabulek,
- sputění procesu profilace dat,
- na základě analýzy zdrojových dat je třeba navrhnout pravidla pro jednotlivé atributy (data rule),
- tato pravidla lze převést na tzv. korekce,
- korekce je třeba aplikovat na vstupní data/atributy,
- pro ETL proces lze nastavit strategii pro čitění dat, jako například remove (data, která nesplňují pravidla se nepřenesou dále, jsou odstraněna), match (očitění dat na základě nejblií shody hodnoty atributů odstranění překlepů, velká/malá písmena apod.) nebo custom (libovolná vlastní logika čitění dat).
Obr. 1: Postup při řeení data profilingu pomocí nástrojů Oracle
Transformace dat zajiující čitění atributů se v některých případech nedají dostatečně jednodue zobecnit, proto se v případě, e ádnou z uvedených metod a nástrojů nelze pouít, neobejdeme bez psaní vlastních transformací. Pro řeení sloitějích situací, kdy je potřeba při čitění dat vyuívat robustnějích metod, existuje řada dalích, cenově samozřejmě mnohem náročnějích, specializovaných produktů (např. Trillium Software od společnosti Harte-Hanks, SAS Data Quality Solution, Firstlogic součást Business Objects, Melissa Data).
Autor působí ve společnosti Sophia Solutions.
Chcete získat časopis IT Systems s tímto a mnoha dalími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z naeho archivu.



















