facebook LinkedIN LinkedIN - follow
Data warehousing a Business intelligence , AI a Business Intelligence

Data management pod lupou



Správa korporátních dat je jednou z vůbec nejdůležitějších oblastí podnikového IT. Bez korektně implementovaného funkčního data managementu může docházet ke zbytečné duplikaci dat (větší nároky na kapacitu úložišť), uchovávání dat nekvalitních, či dokonce k jejich ztrátě.


Data management je velice široký pojem, který zahrnuje celou řadu subtémat. V prvé řadě jde ovšem o proces správy dat jako pro společnost cenného zdroje. Podle jedné z největších organizací zabývající se touto oblastí – DAMA (Data Management Association) – je data management proces vývoje datových architektur, postupů a procedur, které obstarávají správu dat, a jejich následné využívání na pravidelné bázi.

V krátkosti si shrňme některá důležitá témata spadající do oblasti data managementu. Mezi ty vůbec nejpopulárnější patří data modeling (modelování dat), data movement (pohyb s daty), data warehousing (uchovávání dat) či data mining („těžba“ klíčových dat).

Data modeling

V prvé řadě jde o tvorbu struktury pro shromažďovaná data, následně jejich využití a organizaci způsobem, který zaručuje jejich snadnou dostupnost a efektivní uložení i možnost kdykoli tato data využít v rámci reportingu či analýz. Tvorba datové struktury začíná u správného pojmenování souborů a definice vzájemných vztahů mezi daty. Řeč je o takzvaném škatulkování. Pokud máte například databázi plnou multimediálních souborů, můžete vytvořit hierarchickou strukturu objektů, které zahrnují fotografie, respektive video a audio soubory. V rámci každé kategorie pak můžete data dále rozdělovat dle různých kritérií.

Data movement

Schopnost pohybovat s daty z jednoho místa na druhé (přesouvat je). Například potřebujete data přesunout nejprve z místa, kde se shromažďují, do databáze, následně je pak dodat přímo koncovým uživatelům. Tento proces však vyžaduje značnou dávku znalostí a citu pro „logistické“ plánování. Navíc nejen, že musí být navzájem kompatibilní všechen hardware, aplikace a shromážděná data, rovněž je třeba data roztřídit a ukládat tak, aby se k nim v rámci organizace bylo vždy snadné dostat. Pohybovat s daty může být velmi nákladné a náročné na zdroje – je třeba zajistit, aby byl celý proces efektivní, aby byla data při přesunu v bezpečí a aby se data dala kdykoli využít (uživatel si je může vytisknout, uložit, přeposlat dál apod.).

Data warehousing

Jde o efektivní skladování dat tak, aby k nim bylo možno kdykoli snadno přistupovat a využívat je smysluplným způsobem. Různé organizace sbírají různá data, mnohé organizace však svá data využívají stejným způsobem – pro tvorbu reportů nebo analýz, které následně ovlivňují obchodní rozhodnutí. Data warehousing obyčejně zahrnuje celopodnikové úložiště, u velmi velkých korporací však často bývá vyhrazeno jedno uložiště na každou divizi, kancelář, tým apod.

Master data management: pět nejčastějších problémů

Problémy s daty, tu větší, tu menší, mají ve spoustě firem. S velikostí firmy roste také problematičnost těchto „nekvalitních“ dat. To vedle k tomu, aby se o danou problematiku začalo zajímat IT a řešit ji systematicky. Proto se zrodil master data management. Následující body představují nejčastější problémy, na něž můžete narazit při správě dat: Správa různých typů master dat není nejjednodušší. Společnosti může disponovat mnoha různými typy master dat. Je třeba si stanovit způsob jejich jednotné správy, postup jejich rozšiřování i udržování jejich čistoty. To není vždy snadné. Data vůbec neexistují. Některé aplikace potřebují pro správný (a firmě prospěšný) chod určitá data. Bez nich to zkrátka nejde. Problém je, pokud se firma sběrem těchto dat vůbec nezabývala. Kde je získat, kam je uložit a jak je udržovat?

Data nejsou na jednom místě, mají různou podobu a liší se svou integritou. Každá aplikace tak disponuje jinými master daty. Bez vzájemných interakcí to je v pořádku, problém nastává, pokud spolu mají jednotlivé aplikace komunikovat. Nepodchycení vazeb a vztahů mezi daty bez ohledu na jejich původ. Je hezké, že dokážeme sbírat data našich zákazníků a zjistíme tak první poslední. To je však na nic, pokud neumíme tato data spárovat a určit vzájemné souvislosti. Na co nám budou roztříštěné informace typu Karel Veliký, číšník, zůstatek? Samostatně jsou tyto fragmenty k ničemu, dohromady však tvoří ucelenou informaci a my víme, že Karel Veliký pracuje jako číšník a známe velikost jeho zůstatku. Jak dosáhnout tohoto propojení?

Sledování změn v čase. Vše se mění, nikdy nevstupujeme do stejné řeky a organizační struktura firmy je dnes také jiná než třeba za rok – někdo odejde, jiný povýší apod. Historie se týká nejen jednotlivých údajů (například vybrané dovolené či platu, ale rovněž vzájemných vztahů těchto dat – viz bod 4). Jak například zjistíme, kdo vedl IT oddělení před dvěma roky a kolik „za to bral“?

 

Data mininig

Jeden z velice důležitých aspektů data managementu. Jde o proces, kde se zpracovává velké množství dat s cílem zjistit jejich různé korelace, trendy, vzájemné vztahy a vzorce. O kritickou součást data managementu se jedná proto, že odhaluje důležité informace o shromažďovaných datech. Vždyť data jsou primárně shromažďována právě z tohoto důvodu. Nač bychom jinak získávali například údaje od zákazníků? Přece abychom je mohli porovnat a zjistit z nich fakta, která pomohou naší společnosti v dalším rozvoji a dají nám náskok před konkurencí (a jistě, ve finále na nás čekají také vyšší zisky).

Kvalitní správa databáze, půlka úspěchu

Database administration neboli správa databáze je nedílnou součástí data managementu. Každá společnost potřebuje správce databáze, kteří budou nést odpovědnost za databázové prostředí. Těmto správcům se obyčejně svěřují úkoly, které zahrnují oblasti, jako jsou obnovitelnost, integrita, zabezpečení, dostupnost, výkon či podpora vývoje a testování databáze. Podívejme se blíže na jednotlivé pojmy. Obnovitelnost je obecně definována jako zálohování dat a následné testování získaných záloh kvůli jejich validitě. Integrita zase obnáší dohled nad validitou a vysokou integritou dat. Integrita dat (jinak také čistota či kvalita dat) je velmi důležitá hlavně při tvorbě reportů nebo když jsou data využívána pro účely analýzy. Pokud máte neplatná (invalidní) data, budou výsledky analýz bezcenné.

Za nekvalitními daty může vězet spousta faktorů. Typickým nešvarem je lidská chyba, která stojí například za překlepy ve jménech, adresách, či dokonce finančních údajích. Pokud máte špatně napsanou adresu, jak chcete například doručit zákazníkovi jeho zboží? Když u něj máte poznamenán špatný údaj o výši dluhu, zase si jej proti sobě poštvete a budete se jevit jako naprosto neschopní. Datovou integritu podrývá také duplicita dat – některé zákazníky máte v databázi třeba několikrát, někdy s lišícími se údaji (u jednoho zákazníka máte vždy poznamenány jiné informace). S takto nekvalitními daty si těžko dokážete zodpovědět na zásadní otázky vedoucí k dalšímu růstu společnosti. Nedokážete říct, kolik máte zákazníků, jaká je jejich demografie či určit jejich preference. Neumíte zjistit, kdo si objednal jaký typ služeb či produktů a kolik za něj zaplatil. Máte zkrátka svázané ruce. Kvalita dat souvisí s péčí, která se jim věnuje, a proto tuto oblast neberte na lehkou váhu (spadá sem oblast dohledu nad datovou kvalitou i tzv. master data management – centrální správa referenčních údajů).

Zabezpečení databáze je velmi důležitým úkolem jejího správce. Databázoví administrátoři mají pod palcem například udělování přístupu do různých databází a větví organizace. Dostupnost zase obnáší zajištění chodu databáze a možnosti neustálého přístupu (dostupnosti) uživatelům. Logickou dedukcí dospějeme k přímé úměře: více „uptime“ rovná se více produktivity (ačkoli zde samozřejmě hrají roli i další faktory). Výkon je úzce spjatý s dostupností. Jde o to dostat („vyždímat“) z dostupného hardwaru, aplikací a dat co nejvíce. Výkon je obyčejně omezen výší rozpočtu na IC, fyzickým vybavením a dalšími zdroji.

Správce databáze je rovněž součástí jejího vývoje a testování, funguje také jako druh podpory. Vždy se snaží dostat ze systémů o něco víc, zvýšit výkon, zajistit lepší aplikace, hardware i zdroje a zlepšit tak dopad databázové struktury na zážitek koncového uživatele. Správně spravovaná databáze není jen vizitkou schopného databázového administrátora, zvyšuje také využitelnost ohromných datových zásob koncovými uživateli. Je pak mnohem snadnější tvořit reporty, vypracovávat analýzy či provádět prospěšná obchodní rozhodnutí postavená na shromážděných kvalitních datech.

Igor Kopřiva
Autor působí jako software engineering manager ve společnosti CA Technologies.

Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.

Inzerce

Konec papírování, digitalizujte a usnadněte si práci!

IT Systems 3/2024V aktuálním vydání IT Systems jsme se zaměřili na vývoj digitalizace ve světě peněz, tedy v oblasti finančnictví a pojišťovnictví. Dozvíte se například, proč je aktuální směrnice PSD2 v inovaci online bankovnictví krokem vedle a jak by její nedostatky měla napravit připravovaná PSD3. Hodně prostoru věnujeme také digitalizaci státní správy a veřejného sektoru, která nabírá obrátky.