- Přehledy IS
- APS (20)
- BPM - procesní řízení (22)
- Cloud computing (IaaS) (10)
- Cloud computing (SaaS) (33)
- CRM (51)
- DMS/ECM - správa dokumentů (20)
- EAM (17)
- Ekonomické systémy (68)
- ERP (79)
- HRM (27)
- ITSM (6)
- MES (32)
- Řízení výroby (36)
- WMS (29)
- Dodavatelé IT slueb a řeení
- Datová centra (25)
- Dodavatelé CAD/CAM/PLM/BIM... (39)
- Dodavatelé CRM (33)
- Dodavatelé DW-BI (50)
- Dodavatelé ERP (71)
- Informační bezpečnost (50)
- IT řeení pro logistiku (45)
- IT řeení pro stavebnictví (26)
- Řeení pro veřejný a státní sektor (27)
Tematické sekce
ERP systémy
CRM systémy
Plánování a řízení výroby
AI a Business Intelligence
DMS/ECM - Správa dokumentů
HRM/HCM - Řízení lidských zdrojů
EAM/CMMS - Správa majetku a údrby
Účetní a ekonomické systémy
ITSM (ITIL) - Řízení IT
Cloud a virtualizace IT
IT Security
Logistika, řízení skladů, WMS
IT právo
GIS - geografické informační systémy
Projektové řízení
Trendy ICT
E-commerce B2B/B2C
CAD/CAM/CAE/PLM/3D tiskBranové sekce
![]() | |
| Přihlaste se k odběru newsletteru SystemNEWS, který kadý týden přináí výběr článků z oblasti podnikové informatiky | |
![]() | |
Partneři webu
PříLOHA 6/2002
Vytvoření datového skladu pro ČSSZ
pro ČSSZ
Petr Stupka
V souvislosti s přípravou zákona o důchodovém pojitění, který nabyl účinnosti 1. 1. 1996, dolo také k rozhodnutí zásadně inovovat statistický systém v oblasti důchodových dávek, protoe ji nevyhovoval poadavkům kladeným na potřebné výstupy. Výsledkem tohoto rozhodnutí byla definice základních poadavků na budoucí systém. Mezi tyto poadavky patřila zejména monost vytvářet dynamické statistické výstupy podle poadavků uivatelů. Tedy nejen monost přístupu k pevně definovaným výstupům (statistické ročenky), ale vybudování volného dotazovacího systému, který kromě ji vytvořených statických výstupů umoní realizovat vlastní sestavy ("ad hoc" dotazy) podle momentálních potřeb uivatele. Řeení problému bylo zahrnuto do projektů PHARE. Podle úvodní studie byl společností KOMIX implementován základní statistický subsystém s prezentační vrstvou pro MS Excel, který byl v druhé etapě doplněn o prezentační vrstvu pro WWW. V současné době je systém dále rozvíjen a doplňován.
Úvodní studie projektu inovace statistického systému v oblasti důchodových dávek formulovala následující cíle:
. sjednotit uloení dat o důchodech ve statistické databázi, která bude slouit jako základní zdroj dat pro jejich zobrazení a dalí zpracování různými SW nástroji,
. zajistit dynamický přístup k datům nejen pro standardní statistické výstupy (ročenka), ale i pro uivatelsky definované výstupy z průběně vznikajících statistických etření,
. poskytnout koncovým uivatelům interaktivní dotazovací systém nad datovým skladem,
. propojit statistickou databázi s nástrojem (statistickou nadstavbou) umoňujícím vyuití statistických metod, zejména pro analýzu časových řad a modelování relací mezi proměnnými.
V rámci projektu byla realizací pověřena společnost Komix, která ji několik let vyvíjí vlastní systém KMX Warehouse. Ten umoňuje vytvoření a správu datového skladu, který poskytuje uivatelům sluby pro realizaci analytického zpracování dat (tzv. OLAP). Ve verzi systému, která byla pouita v projektu pro ČSSZ, je aplikována tříúrovňová architektura, separující vlastní datový sklad, logickou a prezentační vrstvu aplikace. Datový sklad je vybudován v databázi Informix, logika aplikace je skryta v aplikačním serveru naprogramovaném v jazyce C na UNIXu. Pro zadávání dotazů je vytvořena klientská aplikace pro prostředí MS Win32 (Windows 95 a vyí). Pro prezentaci výsledků je pouit MS Excel.
Datový sklad je spravován databázovým serverem Informix OnLine DS 7.24 v prostředí operačního systému HP-UX na počítači HP 9000. Databáze obsahuje primární data (data o důchodech, včetně jejich kompletní historie), slovník informací (metadata datového skladu), tabulky dimenzí a faktů a výsledkové tabulky.
Systém je rozčleněn na subsystémy pro import dat, agregaci dat, dotazovací server a prezentační vrstvu.
Subsystém pro import dat zajiuje vstup dat do systému. Zdrojem informací pro datový sklad jsou "styčné soubory" vytvářené z dat provozního systému ČSSZ. Subsystém vak zajiuje vstup dat také z jiných zdrojů (demografické a makroekonomické údaje apod.).
V průběhu importu styčných souborů je provedena aktualizace primárních dat datového skladu. Při aktualizaci dochází k transformaci dat do relační podoby a jejich typové a logické kontrole. Do databáze byly přeneseny statistické ukazatele 2,5 mil. důchodců a 3 mil. vyplácených důchodů.
Podpora importu heterogenních dat z různých zdrojů roziřuje monost pouití subsystému. Subsystém pro agregaci dat zajiuje předzpracování dat do podoby, která umoňuje efektivní analýzu statistických dat "na počkání". Agregovaná data ve formě "multidimenzionálních kostek" jsou ukládána do tabulek v relačním databázovém systému Informix. Data jsou uloena v nenormalizovaném tvaru s různým stupněm agregace. Uvedené uloení dat umoňuje získat v krátké době odpovědi na dotazy, které není moné předem připravit, ale které mohou podporovat různá průběně vznikající statistická etření.
Budování datového skladu je zaloeno na vytvoření definic dimenzí a tabulek faktů uloených ve slovníku informací. Administrace datového skladu představuje správu těchto definic. Administrátor můe průběně optimalizovat budování datového skladu; optimalizace spočívá v hledání vhodného poměru mezi rychlostí získávání poadovaných analýz a objemem a dobou vytváření agregovaných dat.
Budování dimenzí datového skladu má jeden specifický rys. Z jednoho prototypu dimenze lze v průběhu času vytvořit více otisků s různými mnoinami hodnot dimenze, přičem platnost kadého otisku je časově omezena. U kadého poadavku na data v datovém skladu je uveden úhel pohledu (časový okamik řezu dimenzí). Podle jeho hodnoty je při zpracování poadavku automaticky vybrán přísluný otisk. Uivateli, pokud pouívá různé úhly pohledu, se dimenze jeví dynamická.
Pouití dynamických dimenzí výrazně roziřuje monosti uivatelů systému. Výhoda se projeví předevím tehdy, pokud se v datovém skladu pouívají dimenze s často se měnícími hodnotami.
Dotazovací server zpracovává poadavky klientské aplikace. Podle typu poadavku server provede např. uloení specifikace dotazu do slovníku informací, sputění dotazu nebo předání výsledků zpracovaného dotazu klientské aplikaci.
Při realizaci poadavku na sputění dotazu provádí dotazovací server analýzu definice dotazu, na jejím základě je proveden výběr zdrojových tabulek a sestaven SQL-příkaz pro databázový server. Výběr zdrojových tabulek faktů probíhá ve třech fázích: výběr vhodných statistických prostorů, výběr vyhovujících tabulek faktů ze skeletu statistického prostoru a zvolení optimální tabulky faktů.
Výběr vhodných statistických prostorů probíhá podle zvolených parametrů statistiky (druh statistiky, úhel pohledu atd.). Při výběru vyhovujících tabulek se hledají tabulky ve skeletu prostoru, které obsahují vechny dimenze v poadovaných (nebo podrobnějích) stupních agregace. Poslední krok, optimalizace výběru zdrojové tabulky ze skeletu prostoru, je řeen pomocí optimalizačního algoritmu zaloeného na hledání minimální vzdálenosti ve speciální metrice statistických prostorů.
Pouití dotazovacího serveru v architektuře klient-server vede k minimalizaci komunikace a k minimalizaci nároků na hardware a operační systém klientského počítače.
Subsystém pro prezentaci dat umoňuje uivateli vytvářet statistické přehledy, a ji standardní statistické výstupy (statistická ročenka), nebo výstupy z průběně vznikajících statistických etření ("ad hoc" dotazy). Uivatel poadavky specifikuje pomocí dotazů. Po dokončení specifikace (provedení výběru poadovaných dimenzí a faktů, zadání filtračních podmínek, podmínek pro řazení atd.) je dotaz předán dotazovacímu serveru ke zpracování. Dotaz je moné spustit v reimu OFF LINE (dotaz je zařazen do fronty dotazů), nebo v reimu ON LINE (zpracování dotazu vak nesmí překročit dobu 2 minut, po této době je dotaz automaticky převeden do reimu OFF LINE).
Uivatelské rozhraní je navreno tak, aby bylo pro koncového uivatele zakrývalo vekerou sloitost dotazovacího serveru. Pro specifikaci dotazu není potřebná znalost SQL-příkazů. Převedení definice dotazu do SQL-příkazů je provedeno a na úrovni dotazovacího serveru. Při prezentaci jsou výsledky zpracovaných dotazů formátovány a zobrazeny v tabulkovém kalkulátoru MS Excel v kontingenčním nebo relačním tvaru.
Pouití kombinovaného zpracování dotazů (reimy ON LINE a OFF LINE) patří k pozitivním rysům systému. Uivatel nemusí mít strach, e v případě nevhodně poloeného dotazu v ON LINE-reimu na dlouhé minuty zablokuje svůj počítač. Buď se dotaz vyhodnotí do 2 minut, nebo se zpracování dotazu automaticky přeruí a dotaz se zařadí do fronty dotazů - tím se aplikace uvolní pro dalí práci.
Slovníček pojmů
Dimenze je pohled na data v datovém skladu podle určitého hlediska. Typickými dimenzemi jsou např. období vzniku, pohlaví, územní jednotky. Kombinací n pohledů na data vzniká "n-dimenzionální kostka" (odtud název dimenze). Dimenze je sloena ze stupňů dimenze, mezi kterými je definována určitá hierarchie. Hierarchie dimenze můe být jednoduchá (území - okres, kraj, republika), nebo stromová (invalidizace - diagnózy, skupiny diagnóz podle WHO, skupiny diagnóz podle Ministerstva práce a sociálních věcí).
Tabulka faktů je reprezentací "multidimenzionální kostky" v relačním databázovém systému. Jeliko tabulka faktů představuje spojení statistických faktů s dimenzemi, jsou řádky tabulky faktů tvořeny:
. kombinací hodnot atributů odpovídajících dimenzí,
. hodnotami faktů pro danou kombinaci hodnot atributů dimenzí.
Hierarchie dimenze ukazuje monosti agregace faktů (tj. monosti vytváření různě agregovaných tabulek faktů). Tabulka faktů, která byla vytvořena s pouitím nejniích stupňů dimenzí, se nazývá atomická tabulka faktů, ostatní tabulky nazýváme agregované tabulky faktů.
Statistický prostor tvoří atomická tabulka faktů a vechny agregované tabulky faktů, které lze z atomické tabulky faktů odvodit. Statistický prostor je určen druhem statistiky, úhlem pohledu a časovým obdobím. Pro kadý druh statistiky (statistika nově vzniklých důchodů, statistika zaniklých důchodů atd.) je definován prototyp atomické tabulky faktů. Úhel pohledu určuje časový okamik řezu dimenzemi. Časové období určuje časový rozsah dat ve statistickém prostoru. Seznam skutečně vytvářených tabulek faktů (obsahující atomickou tabulku faktů a vybrané agregované tabulky) tvoří skelet statistického prostoru.
www.komix.cz

Úvodní studie projektu inovace statistického systému v oblasti důchodových dávek formulovala následující cíle:
. sjednotit uloení dat o důchodech ve statistické databázi, která bude slouit jako základní zdroj dat pro jejich zobrazení a dalí zpracování různými SW nástroji,
. zajistit dynamický přístup k datům nejen pro standardní statistické výstupy (ročenka), ale i pro uivatelsky definované výstupy z průběně vznikajících statistických etření,
. poskytnout koncovým uivatelům interaktivní dotazovací systém nad datovým skladem,
. propojit statistickou databázi s nástrojem (statistickou nadstavbou) umoňujícím vyuití statistických metod, zejména pro analýzu časových řad a modelování relací mezi proměnnými.
V rámci projektu byla realizací pověřena společnost Komix, která ji několik let vyvíjí vlastní systém KMX Warehouse. Ten umoňuje vytvoření a správu datového skladu, který poskytuje uivatelům sluby pro realizaci analytického zpracování dat (tzv. OLAP). Ve verzi systému, která byla pouita v projektu pro ČSSZ, je aplikována tříúrovňová architektura, separující vlastní datový sklad, logickou a prezentační vrstvu aplikace. Datový sklad je vybudován v databázi Informix, logika aplikace je skryta v aplikačním serveru naprogramovaném v jazyce C na UNIXu. Pro zadávání dotazů je vytvořena klientská aplikace pro prostředí MS Win32 (Windows 95 a vyí). Pro prezentaci výsledků je pouit MS Excel.
Datový sklad je spravován databázovým serverem Informix OnLine DS 7.24 v prostředí operačního systému HP-UX na počítači HP 9000. Databáze obsahuje primární data (data o důchodech, včetně jejich kompletní historie), slovník informací (metadata datového skladu), tabulky dimenzí a faktů a výsledkové tabulky.
Systém je rozčleněn na subsystémy pro import dat, agregaci dat, dotazovací server a prezentační vrstvu.
Subsystém pro import dat zajiuje vstup dat do systému. Zdrojem informací pro datový sklad jsou "styčné soubory" vytvářené z dat provozního systému ČSSZ. Subsystém vak zajiuje vstup dat také z jiných zdrojů (demografické a makroekonomické údaje apod.).
V průběhu importu styčných souborů je provedena aktualizace primárních dat datového skladu. Při aktualizaci dochází k transformaci dat do relační podoby a jejich typové a logické kontrole. Do databáze byly přeneseny statistické ukazatele 2,5 mil. důchodců a 3 mil. vyplácených důchodů.
Podpora importu heterogenních dat z různých zdrojů roziřuje monost pouití subsystému. Subsystém pro agregaci dat zajiuje předzpracování dat do podoby, která umoňuje efektivní analýzu statistických dat "na počkání". Agregovaná data ve formě "multidimenzionálních kostek" jsou ukládána do tabulek v relačním databázovém systému Informix. Data jsou uloena v nenormalizovaném tvaru s různým stupněm agregace. Uvedené uloení dat umoňuje získat v krátké době odpovědi na dotazy, které není moné předem připravit, ale které mohou podporovat různá průběně vznikající statistická etření.
Budování datového skladu je zaloeno na vytvoření definic dimenzí a tabulek faktů uloených ve slovníku informací. Administrace datového skladu představuje správu těchto definic. Administrátor můe průběně optimalizovat budování datového skladu; optimalizace spočívá v hledání vhodného poměru mezi rychlostí získávání poadovaných analýz a objemem a dobou vytváření agregovaných dat.
Budování dimenzí datového skladu má jeden specifický rys. Z jednoho prototypu dimenze lze v průběhu času vytvořit více otisků s různými mnoinami hodnot dimenze, přičem platnost kadého otisku je časově omezena. U kadého poadavku na data v datovém skladu je uveden úhel pohledu (časový okamik řezu dimenzí). Podle jeho hodnoty je při zpracování poadavku automaticky vybrán přísluný otisk. Uivateli, pokud pouívá různé úhly pohledu, se dimenze jeví dynamická.
Pouití dynamických dimenzí výrazně roziřuje monosti uivatelů systému. Výhoda se projeví předevím tehdy, pokud se v datovém skladu pouívají dimenze s často se měnícími hodnotami.
Dotazovací server zpracovává poadavky klientské aplikace. Podle typu poadavku server provede např. uloení specifikace dotazu do slovníku informací, sputění dotazu nebo předání výsledků zpracovaného dotazu klientské aplikaci.
Při realizaci poadavku na sputění dotazu provádí dotazovací server analýzu definice dotazu, na jejím základě je proveden výběr zdrojových tabulek a sestaven SQL-příkaz pro databázový server. Výběr zdrojových tabulek faktů probíhá ve třech fázích: výběr vhodných statistických prostorů, výběr vyhovujících tabulek faktů ze skeletu statistického prostoru a zvolení optimální tabulky faktů.
Výběr vhodných statistických prostorů probíhá podle zvolených parametrů statistiky (druh statistiky, úhel pohledu atd.). Při výběru vyhovujících tabulek se hledají tabulky ve skeletu prostoru, které obsahují vechny dimenze v poadovaných (nebo podrobnějích) stupních agregace. Poslední krok, optimalizace výběru zdrojové tabulky ze skeletu prostoru, je řeen pomocí optimalizačního algoritmu zaloeného na hledání minimální vzdálenosti ve speciální metrice statistických prostorů.
Pouití dotazovacího serveru v architektuře klient-server vede k minimalizaci komunikace a k minimalizaci nároků na hardware a operační systém klientského počítače.
Subsystém pro prezentaci dat umoňuje uivateli vytvářet statistické přehledy, a ji standardní statistické výstupy (statistická ročenka), nebo výstupy z průběně vznikajících statistických etření ("ad hoc" dotazy). Uivatel poadavky specifikuje pomocí dotazů. Po dokončení specifikace (provedení výběru poadovaných dimenzí a faktů, zadání filtračních podmínek, podmínek pro řazení atd.) je dotaz předán dotazovacímu serveru ke zpracování. Dotaz je moné spustit v reimu OFF LINE (dotaz je zařazen do fronty dotazů), nebo v reimu ON LINE (zpracování dotazu vak nesmí překročit dobu 2 minut, po této době je dotaz automaticky převeden do reimu OFF LINE).
Uivatelské rozhraní je navreno tak, aby bylo pro koncového uivatele zakrývalo vekerou sloitost dotazovacího serveru. Pro specifikaci dotazu není potřebná znalost SQL-příkazů. Převedení definice dotazu do SQL-příkazů je provedeno a na úrovni dotazovacího serveru. Při prezentaci jsou výsledky zpracovaných dotazů formátovány a zobrazeny v tabulkovém kalkulátoru MS Excel v kontingenčním nebo relačním tvaru.
Pouití kombinovaného zpracování dotazů (reimy ON LINE a OFF LINE) patří k pozitivním rysům systému. Uivatel nemusí mít strach, e v případě nevhodně poloeného dotazu v ON LINE-reimu na dlouhé minuty zablokuje svůj počítač. Buď se dotaz vyhodnotí do 2 minut, nebo se zpracování dotazu automaticky přeruí a dotaz se zařadí do fronty dotazů - tím se aplikace uvolní pro dalí práci.
Slovníček pojmů
Dimenze je pohled na data v datovém skladu podle určitého hlediska. Typickými dimenzemi jsou např. období vzniku, pohlaví, územní jednotky. Kombinací n pohledů na data vzniká "n-dimenzionální kostka" (odtud název dimenze). Dimenze je sloena ze stupňů dimenze, mezi kterými je definována určitá hierarchie. Hierarchie dimenze můe být jednoduchá (území - okres, kraj, republika), nebo stromová (invalidizace - diagnózy, skupiny diagnóz podle WHO, skupiny diagnóz podle Ministerstva práce a sociálních věcí).
Tabulka faktů je reprezentací "multidimenzionální kostky" v relačním databázovém systému. Jeliko tabulka faktů představuje spojení statistických faktů s dimenzemi, jsou řádky tabulky faktů tvořeny:
. kombinací hodnot atributů odpovídajících dimenzí,
. hodnotami faktů pro danou kombinaci hodnot atributů dimenzí.
Hierarchie dimenze ukazuje monosti agregace faktů (tj. monosti vytváření různě agregovaných tabulek faktů). Tabulka faktů, která byla vytvořena s pouitím nejniích stupňů dimenzí, se nazývá atomická tabulka faktů, ostatní tabulky nazýváme agregované tabulky faktů.
Statistický prostor tvoří atomická tabulka faktů a vechny agregované tabulky faktů, které lze z atomické tabulky faktů odvodit. Statistický prostor je určen druhem statistiky, úhlem pohledu a časovým obdobím. Pro kadý druh statistiky (statistika nově vzniklých důchodů, statistika zaniklých důchodů atd.) je definován prototyp atomické tabulky faktů. Úhel pohledu určuje časový okamik řezu dimenzemi. Časové období určuje časový rozsah dat ve statistickém prostoru. Seznam skutečně vytvářených tabulek faktů (obsahující atomickou tabulku faktů a vybrané agregované tabulky) tvoří skelet statistického prostoru.
www.komix.cz
Chcete získat časopis IT Systems s tímto a mnoha dalími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z naeho archivu.
Časopis IT Systems / Odborná příloha
Archiv časopisu IT Systems
Oborové a tematické přílohy
Kalendář akcí
Formulář pro přidání akce
IT Systems podporuje
Formulář pro přidání akce

















