facebook LinkedIN LinkedIN - follow
Tematické sekce
 
Branžové sekce
Přehledy
 
Tematické seriály
 

GDPR

General Data Protection Regulation zásadně mění zpracování osobních údajů a zavádí nové povinnosti...

články >>

 

Jak uřídit IT projekt a nezbláznit se

Užitečné tipy a nástroje pro řešení problémů řízení inovací a vývoje produktů...

články >>

 

Industry 4.0

Průmysl 4.0

Jaký vliv bude mít čtvrtá průmyslová revoluce na výrobu a výrobní firmy?

články >>

 

Komplexní svět eIDAS

O nařízení eIDAS již bylo mnoho řečeno i napsáno. A proto jediné, o čem...

články >>

 

Trendy v CRM

Systémy pro řízení vztahů se zákazníky (CRM) prochází v posledních letech výraznou změnou. Zatímco dříve...

články >>

 

Příručka úspěšného IT manažera

Dnes je řada IT manažerů opomíjena. Úspěšní bývají brouci Pytlíci a Ferdové...

články >>

 
Partneři webu
Dialog 3000Skylla
PříLOHA 6/2002

Vytvoření datového skladu pro ČSSZ

pro ČSSZ

Petr Stupka


V souvislosti s přípravou zákona o důchodovém pojištění, který nabyl účinnosti 1. 1. 1996, došlo také k rozhodnutí zásadně inovovat statistický systém v oblasti důchodových dávek, protože již nevyhovoval požadavkům kladeným na potřebné výstupy. Výsledkem tohoto rozhodnutí byla definice základních požadavků na budoucí systém. Mezi tyto požadavky patřila zejména možnost vytvářet dynamické statistické výstupy podle požadavků uživatelů. Tedy nejen možnost přístupu k pevně definovaným výstupům (statistické ročenky), ale vybudování volného dotazovacího systému, který kromě již vytvořených statických výstupů umožní realizovat vlastní sestavy ("ad hoc" dotazy) podle momentálních potřeb uživatele. Řešení problému bylo zahrnuto do projektů PHARE. Podle úvodní studie byl společností KOMIX implementován základní statistický subsystém s prezentační vrstvou pro MS Excel, který byl v druhé etapě doplněn o prezentační vrstvu pro WWW. V současné době je systém dále rozvíjen a doplňován.


Úvodní studie projektu inovace statistického systému v oblasti důchodových dávek formulovala následující cíle:

. sjednotit uložení dat o důchodech ve statistické databázi, která bude sloužit jako základní zdroj dat pro jejich zobrazení a další zpracování různými SW nástroji,

. zajistit dynamický přístup k datům nejen pro standardní statistické výstupy (ročenka), ale i pro uživatelsky definované výstupy z průběžně vznikajících statistických šetření,

. poskytnout koncovým uživatelům interaktivní dotazovací systém nad datovým skladem,

. propojit statistickou databázi s nástrojem (statistickou nadstavbou) umožňujícím využití statistických metod, zejména pro analýzu časových řad a modelování relací mezi proměnnými.

V rámci projektu byla realizací pověřena společnost Komix, která již několik let vyvíjí vlastní systém KMX Warehouse. Ten umožňuje vytvoření a správu datového skladu, který poskytuje uživatelům služby pro realizaci analytického zpracování dat (tzv. OLAP). Ve verzi systému, která byla použita v projektu pro ČSSZ, je aplikována tříúrovňová architektura, separující vlastní datový sklad, logickou a prezentační vrstvu aplikace. Datový sklad je vybudován v databázi Informix, logika aplikace je skryta v aplikačním serveru naprogramovaném v jazyce C na UNIXu. Pro zadávání dotazů je vytvořena klientská aplikace pro prostředí MS Win32 (Windows 95 a vyšší). Pro prezentaci výsledků je použit MS Excel.

Datový sklad je spravován databázovým serverem Informix OnLine DS 7.24 v prostředí operačního systému HP-UX na počítači HP 9000. Databáze obsahuje primární data (data o důchodech, včetně jejich kompletní historie), slovník informací (metadata datového skladu), tabulky dimenzí a faktů a výsledkové tabulky.

Systém je rozčleněn na subsystémy pro import dat, agregaci dat, dotazovací server a prezentační vrstvu.

Subsystém pro import dat zajišťuje vstup dat do systému. Zdrojem informací pro datový sklad jsou "styčné soubory" vytvářené z dat provozního systému ČSSZ. Subsystém však zajišťuje vstup dat také z jiných zdrojů (demografické a makroekonomické údaje apod.).

V průběhu importu styčných souborů je provedena aktualizace primárních dat datového skladu. Při aktualizaci dochází k transformaci dat do relační podoby a jejich typové a logické kontrole. Do databáze byly přeneseny statistické ukazatele 2,5 mil. důchodců a 3 mil. vyplácených důchodů.

Podpora importu heterogenních dat z různých zdrojů rozšiřuje možnost použití subsystému. Subsystém pro agregaci dat zajišťuje předzpracování dat do podoby, která umožňuje efektivní analýzu statistických dat "na počkání". Agregovaná data ve formě "multidimenzionálních kostek" jsou ukládána do tabulek v relačním databázovém systému Informix. Data jsou uložena v nenormalizovaném tvaru s různým stupněm agregace. Uvedené uložení dat umožňuje získat v krátké době odpovědi na dotazy, které není možné předem připravit, ale které mohou podporovat různá průběžně vznikající statistická šetření.

Budování datového skladu je založeno na vytvoření definic dimenzí a tabulek faktů uložených ve slovníku informací. Administrace datového skladu představuje správu těchto definic. Administrátor může průběžně optimalizovat budování datového skladu; optimalizace spočívá v hledání vhodného poměru mezi rychlostí získávání požadovaných analýz a objemem a dobou vytváření agregovaných dat.

Budování dimenzí datového skladu má jeden specifický rys. Z jednoho prototypu dimenze lze v průběhu času vytvořit více otisků s různými množinami hodnot dimenze, přičemž platnost každého otisku je časově omezena. U každého požadavku na data v datovém skladu je uveden úhel pohledu (časový okamžik řezu dimenzí). Podle jeho hodnoty je při zpracování požadavku automaticky vybrán příslušný otisk. Uživateli, pokud používá různé úhly pohledu, se dimenze jeví dynamická.

Použití dynamických dimenzí výrazně rozšiřuje možnosti uživatelů systému. Výhoda se projeví především tehdy, pokud se v datovém skladu používají dimenze s často se měnícími hodnotami.
 
Dotazovací server zpracovává požadavky klientské aplikace. Podle typu požadavku server provede např. uložení specifikace dotazu do slovníku informací, spuštění dotazu nebo předání výsledků zpracovaného dotazu klientské aplikaci.

Při realizaci požadavku na spuštění dotazu provádí dotazovací server analýzu definice dotazu, na jejímž základě je proveden výběr zdrojových tabulek a sestaven SQL-příkaz pro databázový server. Výběr zdrojových tabulek faktů probíhá ve třech fázích: výběr vhodných statistických prostorů, výběr vyhovujících tabulek faktů ze skeletu statistického prostoru a zvolení optimální tabulky faktů.

Výběr vhodných statistických prostorů probíhá podle zvolených parametrů statistiky (druh statistiky, úhel pohledu atd.). Při výběru vyhovujících tabulek se hledají tabulky ve skeletu prostoru, které obsahují všechny dimenze v požadovaných (nebo podrobnějších) stupních agregace. Poslední krok, optimalizace výběru zdrojové tabulky ze skeletu prostoru, je řešen pomocí optimalizačního algoritmu založeného na hledání minimální vzdálenosti ve speciální metrice statistických prostorů.

Použití dotazovacího serveru v architektuře klient-server vede k minimalizaci komunikace a k minimalizaci nároků na hardware a operační systém klientského počítače.

Subsystém pro prezentaci dat umožňuje uživateli vytvářet statistické přehledy, ať již standardní statistické výstupy (statistická ročenka), nebo výstupy z průběžně vznikajících statistických šetření ("ad hoc" dotazy). Uživatel požadavky specifikuje pomocí dotazů. Po dokončení specifikace (provedení výběru požadovaných dimenzí a faktů, zadání filtračních podmínek, podmínek pro řazení atd.) je dotaz předán dotazovacímu serveru ke zpracování. Dotaz je možné spustit v režimu OFF LINE (dotaz je zařazen do fronty dotazů), nebo v režimu ON LINE (zpracování dotazu však nesmí překročit dobu 2 minut, po této době je dotaz automaticky převeden do režimu OFF LINE).

Uživatelské rozhraní je navrženo tak, aby bylo pro koncového uživatele zakrývalo veškerou složitost dotazovacího serveru. Pro specifikaci dotazu není potřebná znalost SQL-příkazů. Převedení definice dotazu do SQL-příkazů je provedeno až na úrovni dotazovacího serveru. Při prezentaci jsou výsledky zpracovaných dotazů formátovány a zobrazeny v tabulkovém kalkulátoru MS Excel v kontingenčním nebo relačním tvaru.

Použití kombinovaného zpracování dotazů (režimy ON LINE a OFF LINE) patří k pozitivním rysům systému. Uživatel nemusí mít strach, že v případě nevhodně položeného dotazu v ON LINE-režimu na dlouhé minuty zablokuje svůj počítač. Buď se dotaz vyhodnotí do 2 minut, nebo se zpracování dotazu automaticky přeruší a dotaz se zařadí do fronty dotazů - tím se aplikace uvolní pro další práci.

Slovníček pojmů
Dimenze je pohled na data v datovém skladu podle určitého hlediska. Typickými dimenzemi jsou např. období vzniku, pohlaví, územní jednotky. Kombinací n pohledů na data vzniká "n-dimenzionální kostka" (odtud název dimenze). Dimenze je složena ze stupňů dimenze, mezi kterými je definována určitá hierarchie. Hierarchie dimenze může být jednoduchá (území - okres, kraj, republika), nebo stromová (invalidizace - diagnózy, skupiny diagnóz podle WHO, skupiny diagnóz podle Ministerstva práce a sociálních věcí).

Tabulka faktů je reprezentací "multidimenzionální kostky" v relačním databázovém systému. Jelikož tabulka faktů představuje spojení statistických faktů s dimenzemi, jsou řádky tabulky faktů tvořeny:

. kombinací hodnot atributů odpovídajících dimenzí,
. hodnotami faktů pro danou kombinaci hodnot atributů dimenzí.

Hierarchie dimenze ukazuje možnosti agregace faktů (tj. možnosti vytváření různě agregovaných tabulek faktů). Tabulka faktů, která byla vytvořena s použitím nejnižších stupňů dimenzí, se nazývá atomická tabulka faktů, ostatní tabulky nazýváme agregované tabulky faktů.

Statistický prostor tvoří atomická tabulka faktů a všechny agregované tabulky faktů, které lze z atomické tabulky faktů odvodit. Statistický prostor je určen druhem statistiky, úhlem pohledu a časovým obdobím. Pro každý druh statistiky (statistika nově vzniklých důchodů, statistika zaniklých důchodů atd.) je definován prototyp atomické tabulky faktů. Úhel pohledu určuje časový okamžik řezu dimenzemi. Časové období určuje časový rozsah dat ve statistickém prostoru. Seznam skutečně vytvářených tabulek faktů (obsahující atomickou tabulku faktů a vybrané agregované tabulky) tvoří skelet statistického prostoru.

www.komix.cz
 
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.


Inzerce

Webinář: „6 pohledů na bezpečné IT nemocnic“

webinarZaregistrujte se na online webinář, určený nejen IT managerům nemocnic. Dozvíte se v něm vše o zabezpečení uživatelských identit, vícefaktorovém přihlášení či ochraně infrastruktury a cloudů. Akce se koná v úterý 25. května, od 10:00 do 11:30 hod.

Helios
- inzerce -