facebook LinkedIN LinkedIN - follow
IT SYSTEM 5/2001

Dva způsoby budování datového skladu

Srovnání různých přístupů budování data warehouse z pohledu investic

Milan Kučera





Budování datového skladu představuje jedno ze strategických rozhodnutí společnosti. Obecně však existují dva základní přístupy budování datového skladu. Odpovědný útvar společnosti, útvar informačních technologií, je zodpovědný za rozhodnutí, který z přístupů bude použit. Rozhodnutí je závislé na celkové koncepci informačně technologické architektury společnosti. Koncept informačně technologické architektury, Corporate Information Factory (CIF), nebo IT Systm 3/2001, nám může být nápomocen. Je však nutno si uvědomit, že architektura informačně technologického prostředí, obsahuje celopodnikový datový sklad jako "ústřední" komponentu pro podporu strategického a taktického rozhodování.

Tento článek věnujeme výkladu pojmu datového skladu, s nimiž se můžete setkat na našem trhu. Pojem "datový sklad" totiž není chápán jednotně. Existují dva základní výklady pojmu data warehouse (datový sklad), a to:

· data warehouse jako množina data martů
- s celepodnikovými demensemi, fakty - Ralph Kimball
- bez celopodnikových dimensí, faktů
· celopodnikový datový sklad - Bill Inmon

Data warehouse jako množina data martů
"Data warehouse není nic jiného než sjednocení data martů", je věta s níž přišel zakladatel dimensionálního modelování Ralph Kimball. Tvrzení R. Kimballa neznamená nic jiného než postupné budování data martů. Logickým sjednocením těchto data martů pak rozumíme datový sklad. Kimballova myšlenka budování data warehouse se stala velmi populárním z několika důvodů:

· důvodu rychlé implementace data martu,
· nižších počátečních investic.

Myšlenky přístupu začaly využívat někteří z dodavatelů datových skladů. Ideje tohoto přístupu byly promítnuty i do názvů produktů, jako např. Data Mart Suit, PowerMart a další. Potenciální klient těchto firem tak mohl být uváděn do rozpaků, neboť si mohl položil následující otázku: "Budujeme data warehouse nebo data mart"?

Data marty bez celopodnikových dimensí a faktů
Při budování datového skladu se setkáváme se dvěmi variantami, které nejsou na první pohled snadno rozlišitelné a tak jejich rozdíly mohou potenciálnímu klientu uniknout. Jedná se o následující skutečnost.

Jednotlivé data marty jsou vždy budovány na základě požadavků jednotlivých útvarů společnosti. Z toho vyplývá:

· potřeba vlastních dat
· používání vlastních definice pojmů
· vlastní historie dat
· vlastní periodicita aktualizace dat.

Zmiňovaný přístup tak vede k tomu, že jednotlivé data marty obsahují:

· redundantní data
· odlišné dimense (= atributy prostřednictvím kterých se "díváme" na data)
· odlišná fakta (= veličiny, které sledujeme, např. zisk, ztráta, počet hovorů apod.)

Tímto způsobem vybudované prostředí pro podporu rozhodování však neposkytuje celopodnikový pohled na informace. Podíváme-li se na schématické znázornění architektury, odpovídající zmiňovanému přístupu, pak tato nám může připomínat "pavoučí sít" ("spider net" - obvykle používaný pojem pro architekturu data warehouse založenou na jednotlivých data martech), viz.obrázek 1.

Všeobecně přijaté dimense a standardní fakta
V anglicky psané literatuře o datových skladech se v souvislosti s pojmem "všeobecně přijaté dimenze" setkáváme s pojmem "conformed dimension". Ralph Kimball (3) upozorňuje, že data marty je možné sjednotit pouze za předpokladu tzv. "všeobecně přijatých" dimensí a faktů (str. 157). Pokud striktně nedodržujeme "všeobecně přijaté" dimense, pak není možné jednotlivé data marty spojit v celek - data warehouse. Pokud tak učiníme, pak budeme dostávat špatné výsledky.

Budování datového skladu, podle Ralpha Kimballa, je možné za určitého předpokladu. Tím předpokladem je provedení databázového návrhu celého datového skladu před jeho vlastním budování jako množiny jednotlivých data martů. Pouze za uvedeného předpokladu jsme schopni budovat takové jednotlivé data marty, jejichž sjednocení je pak možné považovat za datový sklad. Požadavek na celkový design datového skladu a zaměření se na správu "všeobecně přijatých" dimensí a standardizovaných faktů má určitý dopad do architektury. Architektura prostředí, se "všeobecně přijetými" dimensemi je o něco komplikovanější, ale přesto zůstává blízká předešlé architektuře.

Zavedením a správou "všeobecně přijatých" dimensí a standardizovaných faktů jsme pak schopni poskytnou konsolidované údaje napříč celým podnikem.

Podíváme-li se na architekturu z technického hlediska, zjistíme, že:

· obsahuje velké množství redundantních dat
· má výrazný dopad na HW a SW licence
· má nezanedbatelný dopad do poplatků za správu a servis HW, SW
· jedná se o nesnadno monitorovatelnou architekturu
· data quality musí být nastavena pro každý data mart, apod.

Přístup Billa Inmona
Bill Inmon, přišel s myšlenkou vytvořit architekturu, která by byly minimalizovala redundantní data, a zároveň minimalizovala počet interface mezi produkčními systémy a datovým skladem. Ne méně významným požadavkem je snadnost monitorování aktivit. Minimalizace redundancí přivedla Billa Inmona ke konceptu centrálního datového skladu. Co je centrální datový sklad? Pod pojmem centrální datový sklad (též celopodnikový datový sklad) rozumíme integrovanou, předmětově orientovanou, nepodléhajícím změnám, časově proměnnou kolekci detailních dat.

Vysvětleme si jednotlivé termíny obsažené v definici datového skladu.

integrovaný
To znamená, že data, která jsou ukládána v datovém skladu pochází z několika produkčních systémů podniku. Data jsou na základě určitých pravidel spojována tak, aby poskytla koncovému uživateli celopodnikový pohled na oblast jeho zájmu.
předmětově orientovaný - každý podnik, organizace pracuje s určitými pojmy, jako jsou KLIENT, PRODUKT, ÚČET, TRANSAKCE a pod. Tyto pojmy představují subjekty (předměty). Mezi těmito subjekty existují nejen určité vztahy, ale tyto je možné také nadále dělit jako např.: KLIENT ={ Právnická osoba, Fyzická osoba, Fyzická osoba - podnikatel} atd.

nepodléhající změnám
Data v produkčních systémech se mění (podléhají změnám). Datový sklad neobsahuje všechny změny během dne, ale pouze ty konečné, tj. po definovaném okamžiku, kdy jsou data z produkčních systémů extrahována pro potřeby datového skladu. Data jsou obvykle extrahována po provedení tzv.uzávěrky dne. Jedná se tak o statická data vztahující se k jednomu, dobře definovanému okamžiku (lze se setkat s pojmem "snapshot").

časově proměnný
Pod pojmem "časově proměnný" rozumíme skutečnost, že data v datovém skladu jsou ukládána po časových snímcích a tak vytváří časově proměnnou řadu, historii.

Celopodnikový datový sklad, se tak stává "srdcem" podnikové architektury pro podporu rozhodování. Nad tímto datovým skladem jsou pak budovány data marty, které slouží pro podporu rozhodovacích procesů jednotlivých útvarů podniku. Tímto jsme získali unikátní zdroj celopodnikových detailních dat.
Architektura celopodnikového datového skladu s sebou přináší:

· dobře monitorovatelné prostředí
· vytvoření jednoho místa pro zajištění kvality dat
· minimalizaci interface mezi produkčním a DSS prostředím
· zajištění celopodnikového pohledu na data
· snížení nákladů na HW, SW
· snížení redundantních dat, atd.

Závěr
V článku jsme se snažili poukázat na možné výklady pojmu "datový sklad", "data warehouse". Společnost, která se rozhodla investovat do implementace datového skladu by měla být dodavatelem informována o tom, jak tato chápe pojem datového skladu. Můžete se také potkat s tím, že někteří z dodavatelů data martů budou argumentovat tím, že implementace data martu je mnohem kratší než podnikového data warehouse. O rychlosti implementace prvního přírůstku celopodnikového datového skladu či prvního data martu rozhoduje např. rozsah projektu či počet zdrojů které budou integrovány.

V případě, že se rozhodnete implementovat datový sklad cestou jednotlivých data martů, pak by jste se měli ptát dodavatele, jakým způsobem se bude dodavatel vyrovnávat s celopodnikovými dimensemi a standardizovanými fakty. Celopodnikové dimense a standardizovaná fakta musí být stejná v každém data martu, to znamená, že musí být distribuována napříč touto architekturou. Architektura data warehouse založená na celopodnikovém data warehouse je flexibilnější a z hlediska správy a rozšiřování jednodušší.

Před započetím budování datového skladu by si tedy každý podnik měl provést (sám nebo ve spolupráci s konsultační společností) analýzu potřeb a identifikovat optimální řešení, architekturu, pro podporu rozhodování, čímž zároveň optimalizuje budoucí investice do vybraného řešení.

Literatura
(1) Bill Inmon, C. Imhoff: Corporate Information Factory, John Wiley and Sons, © 2000
(2) Bill Inmon : Building the data warehouse, John Wiley and Sons, © 1999
(3) Ralph Kimball : The Data warehouse Lifecycle Toolkit, John Wiley and Sons © 1998
(4) Jonathan Wu : Calculation the ROI for Business Intelligence Project, DM Review July/2000

Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.


Inzerce

Modernizace IS je příležitost přehodnotit způsob práce

IT Systems 4/2025V aktuálním vydání IT Systems bych chtěl upozornit především na přílohu věnovanou kybernetické bezpečnosti. Jde o problematiku, které se věnujeme prakticky v každém vydání. Neustále se totiž vyvíjí a rozšiřuje. Tematická příloha Cyber Security je příležitostí podívat se podrobněji, jakým kybernetickým hrozbám dnes musíme čelit a jak se před nimi můžeme chránit. Kromě kybernetické bezpečnosti jsme se zaměřili také na digitalizaci průmyslu.