facebook LinkedIN LinkedIN - follow

Data Vault 2.0 a agilní vývoj datového skladu pro implementaci Business Intelligence

-PR-

Implementace Business Intelligence (BI) znamená transformaci dat za účelem podpory rozhodování a automatizace založené na datech a faktech. Implementace BI vedla – a stále vede – přes datový sklad (data warehouse/DW). Datový sklad byl, je a bude základ BI kvůli jeho integrační a historizační funkci.


Agilní metodiky představují vývoj softwaru, založený na iterativním a inkrementálním přístupu. Mají i ambici umožnit rychlý vývoj softwaru a schopnost reagovat na změnu požadavků/priorit.

Lze datový sklad vyvíjet agilním způsobem? Lze doručit řešení datového skladu ve vysoké kvalitě a zároveň rychle? Mohou jít rychlost a kvalita ruku v ruce? Data Vault 2.0 (DV2.0) se o toto snaží.

Data Vault 2.0

Definice Data Vault 2.0 zní: „Systém Business Intelligence obsahující komponenty nezbytné k uskutečnění podnikové vize v oblasti datového skladu a poskytování informací“ – Dan Linstedt, Data Vault autor. Komponenty systému Data Vault 2.0 ukazuje obrázek 1.

Obr. 1: Data Vault 2.0 – pilíře
Obr. 1: Data Vault 2.0 – pilíře

Z hlediska DWH architektury se u Data Vault 2.0 jedná architekturu 3vrstvou, jak ukazuje obrázek 2.

Obr. 2: Data Vault 2.0 – 3vrstvá architektura
Obr. 2: Data Vault 2.0 – 3vrstvá architektura

Klíčovou komponentu v systému představuje datový model, speciálně navržený pro potřeby datových skladů. Data Vault 2.0 model v základní verzi nabízí 3 typy tabulek: hub, link a satellite.

Obr. 3: Data Vault 2.0 – datový model
Obr. 3: Data Vault 2.0 – datový model

Jak na celý systém Data Vault 2.0, tak i na Data Vault 2.0 model se lze dívat optikou „máme standard“. Máme standard = máme šablony i postupy. Čím více standardů, šablon a postupů, tím větší možnost používat automatizaci a generování kódu pro datový sklad.

To znamená, že Data Vault 2.0 přímo podporuje automatizaci a generování DWH kódu, a to především v integrační části datového skladu. Automatizace a generování – to jsou důvody, díky kterým Data Vault 2.0 nabízí zrychlení (nejen) v integrační fázi vývoje.

Obr. 4: Data Vault 2.0 – zrychlení integrace
Obr. 4: Data Vault 2.0 – zrychlení integrace

Data Vault 2.0 dále sám o sobě nabízí další úsporu, a to začít dříve s fázemi Profile/Stage/Integrate prostě proto, že nečeká na kompletní dokončení analýzy a finální datový model (pro Information Delivery vrstvu).

Obr. 5: Data Vault 2.0 – zrychlení integrace
Obr. 5: Data Vault 2.0 – zrychlení integrace

Agile

Nechme stranou, že slovo „agile“ je v praxi často nadužíváno nebo špatně používáno, například pro projekty bez dokumentace nebo projekty neřízené. Jsme-li agile, potom dělíme větší část požadovaného celku na menší, ve sprintech zvládnutelně doručitelné úseky. Data Vault 2.0 jde této charakteristice naproti tím, že programově odbourává závislosti na úrovni datového modelu/dat/nahrávání. Odbourávajíli se závislosti, zvyšuje se stupeň možného paralelismu. Paralelismus opět potencionálně znamená úsporu a lepší výkon.

Jsme-li agile, na konci každého sprintu (sprint = 2–3 týdny) doručujeme přidanou hodnotu do produkce a zároveň na konci každého sprintu jsme schopni akceptovat změnu priorit. V dnešní době nejen, že je normální, že požadavky businessu se mění rychle, ale navíc rychlost a frekvence takovýchto změn stále roste. DWH/BI musí – aby bylo úspěšné – být schopné rychle reagovat. Systém Data Vault 2.0 tuto možnost nabízí, resp. systém Data Vault 2.0 byl s ohledem na tuto nutnost od začátku vymýšlen.

Data Vault 2.0 & Agile

Data Vault 2.0 dohromady s Agile umožňují, na konci každého sprintu, změnu pořadí úkolů čekajících ve frontě bez blokací typu „… počkejte, nejdříve musíme dodělat ono, až potom můžeme dělat toto“. Data Vault 2.0 ve spojení s Agile nabízí, v našem případě, trojnásobnou produktivitu. Viz obrázek 6.

Obr. 6: Data Vault 2.0 – dohromady s Agile
Obr. 6: Data Vault 2.0 – dohromady s Agile

Porovnáváme levou (non Agile a non DV2.0 přístup) a pravou (Agile a DV2.0 přístup) část obrázku. Obě části obrázku znázorňují stejný časový úsek (4 sprinty). V pravé části obrázku vidíme za stejný časový úsek „šikovněji“ poskládaný 3násobný objem práce.