facebook LinkedIN LinkedIN - follow
PříLOHA 6/2001

Charlie - Datové pumpy

Ing. Pavel Maslowski [ Pavel (tečka) Maslowski (zavináč) armanazer (tečka) cz ]





Dnešní doba klade důraz na rychlou přizpůsobitelnost informačního systému měnícím se podmínkám ať již externím nebo interním, efektivní práci se znalostmi, zákazníkem. Z tohoto úhlu pohledu se nejen tvorba datových skladů, změny informačních systémů a databázových aplikací, změny organizačních struktur podniku, obchodních řetězců, ale i jakákoliv další manipulace s daty za tím či oním účelem stává neefektivní bez nástrojů, kterým obecně říkáme datové pumpy. Nástroj Charlie - Datové pumpy je ryze českým produktem vyvinutým společností AŘ MANAŽER. K jeho vlastnostem patří snadnost změn na úrovni parametrizace pump (bez nutnosti programátorských zásahu), dokumentace, grafické prostředí a přímá provázanost s DSS (decision support system) pro prezentaci dat.

Uživatel Charlie - Datové pumpy vystačí pro definování přenosů a transformací dat se znalostmi zdrojové a cílové databáze a problematiky jazyka SQL.

Je nutné si uvědomit, že práce datových pump není pouhé kopírování dat z jednoho souboru/databáze do druhého souboru/databáze. Mimo tento úkol musí kvalitní datové pumpy disponovat také mechanismy umožňujícími transformaci dat do žádané podoby. V drtivé většině případů totiž vstupní datové zdroje nenabízejí data v takové formě, jakou potřebujeme pro jejich uložení v datovém skladu (v cílových databázích). Možnosti transformací dat se nabízejí následující:

1. Čištění vstupních dat, neboli oddělení dat postrádající klíčové položky nezbytné pro další práci nad těmito daty (primární klíče, číselníkové kódy apod.)

2. Validace dat, neboli kontrola vstupních dat, zda vyhovují zadaným podmínkám

3. Kontrola integrity, například data pocházející z několika nezávislých zdrojů nesmí v cílovém datovém skladu navzájem kolidovat (=>sjednocení číselníků), nebo kontrola či přiřazení hodnot cizích klíčů apod.

4. Agregované výpočty, neboli výpočet souhrnných, průměrných a jiných hodnot ze sady vstupních hodnot

Kromě transformačních možností datové pumpy nabízejí také základní operace nad datovými toky.

Datový tok začíná načtením sady záznamů ze zdroje dat. Datová pumpa tedy nabízí nejen načtení dat z různých datových zdrojů (různých fyzicky, logicky či platformově), ale též spojení (JOIN), sloučení (UNION), rozdělení (WHERE) načtených toků. V neposlední řadě nechybí možnost aktualizace cílové databáze načteným (a transformovaným) datovým tokem nebo jeho vložení datového toku do cílové databáze.

Stejně jako je pestrá paleta datových zdrojů, jenž budou datové pumpy schopny načíst (ODBC pro různé databáze či soubory a přímé ovladače databází), není ani nabídka datových cílů zúžena na pouhý datový sklad (databáze zpřístupněná přes ODBC či přímý ovladač). Často jsou užitečné i výstupy do souborů. Také informace mapující činnost datových pump, prezentované na počítači databázového správce, nebo zasílání zpráv do jeho elektronické pošty, je jistě neocenitelnou službou usnadňující hladké fungování datových přenosů a transformací.

V nástroji Datová pumpa se vytvářejí tzv. Pracovní plochy, které sdružují určitou oblast přenosu dat. V rámci ploch se pak definují logické Pohledy na databázové zdroje, které v sobě nesou informace o vybraných tabulkách a sloupcích. Pohled je vždy definován pro konkrétní databázi, přičemž je možné si vytvořit více pohledů na jednu zdrojovou databázi.


Obr. 1: Pohled na prostředí Charlie s Datovými pumpami

Nad definovanými pohledy pak lze vytvářet tzv. Editovatelné tabulky, které umožňují ruční editaci a vkládání dat do tabulek vybraných v daném pohledu.

Výkonnými prvky nástroje Datová pumpa jsou Plány, které se skládají z jednotlivých Komponent. Sestavením těchto Komponent a jejich parametrizací je pak vystavěn vlastní přenos a transformace dat. Komponenty nástroje Datová pumpa lze rozdělit do čtyř skupin :

1. Vstupní

. Načtení dat - načtení dat ze zdrojové databáze zpřístupněné přes ODBC nebo přímými ovladači

2. Transformační

. Filtr - filtrování dat
. Rozdělení - rozdělení jednoho datového toku na dva podle definované podmínky
. Generování klíče - generování (nalezení) nové hodnoty klíče
. Spojení vazbou - spojení sloupců ze dvou datových toků
. Sloučení - sloučení řádků ze dvou datových toků
. Přiřazení klíče - vyhledání klíče v požadované tabulce a jeho přiřazení
. Agregace - provádění agregací (SUM, AVG, MIN, MAX atd.)
. Vzorec - definování výpočtu nového sloupce v datovém toku
. SQL výpočty - provádí výpočty sloupců pomocí funkcí DB stroje
. Kódová stránka - převádí data mezi různými kódovými stránkami

3. Výstupní

. Vložení dat - vložení dat do cílové databáze
. Aktualizace dat - aktualizace dat v cílové databázi
. Náhled - zobrazení dat pro usnadnění ladění plánů
. Ukončení - přerušení datového toku

4. Speciální


. Spuštění plánu - spuštění jiného (vnořeného) plánu
. Meziřádkové výpočty - provádí definované výpočty nad daty z různých řádků
. SQL příkaz - vykonání obecného SQL příkazu nad zvolenou databází
. E-mail zpráva - zaslání E-mail zprávy o průběhu
. Externí program - spuštění externího programu


Obr. 2: Sestavení plánu Datové pumpy

Vytvořené a odladěné Plány přenosů a transformací dat lze spouštět i automaticky použitím nástroje Plánovač. Spuštěné Plány jsou monitorovány, přičemž se zaznamenávají informace o výkonu jednotlivých Komponent, které je možno zpětně prohlížet a identifikovat tak případné chyby při přenosu.

Pro jednotlivé Pracovní plochy lze rovněž vytvářet tzv. Verze, ke kterým je možné se v případě potřeby vrátit. Pro přenos nebo zálohování Pracovních ploch nabízí prostředí Charlie možnost exportu/importu pomocí technologie XML.

Charlie - Datové pumpy mohou běžet jak v distribuované verzi, tak i v lokální, přičemž aplikační server pracuje pod systémem Windows NT/2000. Jako pracovní databáze se využívá Oracle nebo MS SQLServer nebo Sybase SQLAnywhere, proto pro práci s pumpami je nutno mít nainstalovanou některou z uvedených databází. Pracovní databáze může být zároveň databází cílovou i zdrojovou.


www.armanazer.cz

Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.


Inzerce

Modernizace IS je příležitost přehodnotit způsob práce

IT Systems 4/2025V aktuálním vydání IT Systems bych chtěl upozornit především na přílohu věnovanou kybernetické bezpečnosti. Jde o problematiku, které se věnujeme prakticky v každém vydání. Neustále se totiž vyvíjí a rozšiřuje. Tematická příloha Cyber Security je příležitostí podívat se podrobněji, jakým kybernetickým hrozbám dnes musíme čelit a jak se před nimi můžeme chránit. Kromě kybernetické bezpečnosti jsme se zaměřili také na digitalizaci průmyslu.