facebook LinkedIN LinkedIN - follow
PříLOHA #1 3/2003

Jak se vypořádat s obrovskými objemy dat?

Vladimír Kyjonka





Před ne zas tak mnoha lety (bylo to právě v době, kdy mizela železná opona) jsem pracoval v jednom na naše poměry velkém databázovém středisku. Honosilo se tím, že jeho sálový počítač, toho času jeden z nejvýkonnějších u nás, zpracovává téměř nepředstavitelné objemy dat. Vzpomínám si na větu, kterou pronesl můj starší kolega, když mi představoval, co všechno systém umí. Nepamatuji si to už úplně přesně, ale zněla nějak jako: "…Tady na těch dvou stojanech máme po 200 mega, tady dalších 400 a společně se záložním… představ si - my tu máme skoro gigabajt (!) dat!!!". Panečku, to bylo něco.

Dnes "vlastní" mnohonásobně větší objemy dat téměř každý uživatel osobního počítače. Tisíce a možná miliony programů vytvářejí a zpracovávají neustále další a další data, která nesou stále více informací, po informačních dálnicích sviští stále objemnější náklady, ale kam vlastně jedou? Co se stane s informacemi poté, co jsou prohnány zažívacími trakty výpočetních systémů, kde působí jako živiny pro nenasytný business? Cílovou metou, ke které spějí informace, když splní svou bezprostřední roli v procesu informační látkové výměny, je dnes v mnoha případech něco, čemu se říká datový sklad. Samotná myšlenka uchovat vysloužilá data pro "další použití" se ukázala být velmi užitečnou, vždyť systémy pro analýzu podnikových dat, označované různými termíny, od nástrojů pro podporu rozhodování přes on-line analýzu, exekutivní či manažerské informační systémy až po vznešené dolování dat či samotnou business inteligenci, již pevně zakotvily v dnešním IT světě, a dokonce mnohde sehrály užitečnou roli.

Objemy dat, která dnes produkují počítačové systémy, se však zvětšují mnohem rychleji, než bychom si ještě nedávno dokázali představit. Počítačová technika proniká urputně do stále více oblastí a všude, kde se uchytí, začne okamžitě produkovat data. A stejně rychle, jak data vznikají, roste i chuť je využít. Každý program či elektronická služba spuštěná na počítači je vytváří cíleně a "uvědoměle" - to jsou ta data, se kterými aplikace pracuje - ale také jaksi mimochodem - tato data říkají, kdo kde kdy a zajatých okolností si danou službu, funkci či aplikaci vyžádal, jestli se svým požadavkem uspěl nebo třeba jak byl s jeho plněním spokojen. Skutečně, dnes začíná být naplňován smysl pojmu "velmi rozsáhlé databáze" (VLDB). Do jaké velikosti tyto databáze v dohledné době vyrostou? Existuje nějaká mez, na které se objemy dat (alespoň po nějakou dobu) ustálí? Těžko říci. Pokud dnes nějaké předpovědi existují, jsou spíše mlhavé nebo mají dokonce charakter věšteb, postavených tak, aby se vyplnily, ať bude skutečný vývoj téměř jakýkoliv. Co však jisté je, jsou náklady, které si uchovávání tak velkých dat vyžádá.

Viditelně zde vyvstávají dvě stěžejní otázky:

1. Vyplatí se vůbec schraňovat tolik informací? Je obhajitelné, aby pro jejich uchování bylo vynaloženo několikrát více prostředků než pro provozní systémy podniku, které představují jeho srdce a plíce? Má to smysl, shromažďovat tolik informací jenom pro potřebu relativně úzké skupiny lidí?

2. Jakým způsobem lze technicky i finančně zvládnout datovou explozi, které jsme dnes svědky a která bude v příštích letech akcelerovat?

Jistě existuje mnoho teoretických statí, ve kterých jsou odpovědi na tyto otázky formulovány. S nimi lze souhlasit nebo polemizovat, je však obtížné je ověřit. My se zde pokusíme nalézt odpověď na příkladech ze současné praxe.

Ad 1: Největší datový sklad na světě vydělává peníze
Tradičně jsou řešení v oblasti datových skladů a business inteligence chápána v převážné většině případů jako aktivity, jež mohou být pro rozvoj vlastního businessu velmi užitečné, ale jejich působení je v zásadě nepřímé. Analýzy mohou ovlivnit rozhodování, které se zprostředkovaně odrazí v úspoře nákladů, nalezení úzkých míst, identifikaci obchodních příležitostí a podobně. Pro tyto druhy výstupů je typické, že jejich konzumenti (tj. lidé, kteří rozhodují) pracují s relativně malým množstvím informací syntetizovaných z velkého objemu dat. Tento poměr se bude nadále zvětšovat - podniková data velmi rychle porostou, ale lidé dokáží smysluplně pracovat jenom s určitým objemem. Manipulace s obrovskými balíky dat tak představují v podstatě režii pro získávání malého množství, i když velmi zajímavých, informací. Otázka zní: Lze tedy tyto investice zúročit v podnikovém businessu přímo? A odpověď: vypadá to, že ano - a takové příklady se dnes už objevují, a dokonce jich přibývá. Jedním ze stěžejních faktorů úspěšnosti takového businessu je počet zákazníků těchto služeb. Jestliže jich bude dostatečně velký počet, dá se uvažovat o tom, že se investice do shromažďování a uchovávání dat vyplatí.

Příkladem takového podniku je projekt společnosti Nielsen Media Research, což je největší a nejznámější světová společnost zabývající se výzkumy sledovanosti televizních pořadů. Když se mluví o televizním businessu, je to téměř totéž, jako když se mluví o televizní reklamě. Po celém světě, a hlavně v jeho technicky vyspělejší části, se dnes populaci nabízejí stovky a tisíce televizních stanic a programů, jejichž sledovanost ovlivňuje cenu a účinnost reklamy. Společnosti, které se reklamou zabývají, se ji snaží vytvořit a umístit tak, aby co nejúčinněji ovlivnila příslušnou zájmovou skupinu. Při množství kanálů a pořadů, které dnes zaplňují éter je pro jejich výběr lidská intuice naprosto nedostatečným nástrojem. I malé rozdíly ve sledovanosti se mohou ve finále promítnout do velkých peněžních částek. Podrobné informace o sledovanosti se tedy stávají velmi cenným zbožím. Aby na jeho prodeji mohl někdo vydělat, musí je však mít k disposici stále (on-line) a pro velké množství subjektů.
A to vedlo společnost Nielsen Media Reserach k tomu, aby vybudovala do dnešní doby největší datový sklad na světě a zpřístupnila jej on-line pro své klienty.

Ad 2: Vertikální ukládání dat - paradigma pro velmi rozsáhlé databáze
Jak to zařídit aby bylo možno tisícům současných uživatelů předložit tak veliké objemy dat pro on-line analýzu a přitom zachovat únosné ekonomické parametry? Odpověď je možno najít například ve studii společnosti Bloor Research zabývající se analýzami informačích technologií. V té se říká, že zpracování obrovských objemů dat tisíci a desetitisíci uživateli bude založeno na technologii vertikálního ukládání dat. Říká, že pro první dekádu 21. století bude architektura CRBD (column-based relational databases) znamenat totéž co OLAP pro devadesátá léta. Ukládání a správa obrovských objemů dat se velmi brzy vymkne možnostem tradičních technologií vyvinutých především pro vysoký transakční výkon. Ty se, když jsou konfrontovány s novou třídou požadavků masové on-line analýzy, uchylují k metodám hrubé síly (masivní rozšiřování hardware). Výsledkem je podstatně rychlejší růst nákladů než efektivního rozsahu zpracovávaných dat. Východisko může nabídnout jedině změna filozofie a technický vtip, který zásadně přehodnotí přístup k ukládání a správě velmi velkých objemů dat.

Účelnost a efektivitu nasazení technologie vertikálního ukládání dat potvrdila v praxi právě společnost Nielsen Media Research. V době uvedení do provozu bylo do databáze Nielsen Media Research uloženo 24 TB vstupních dat, komprimovaných díky technologii vertikálního ukládání na 16 TB diskového prostoru (pro srovnání - v klasické relační databázi by efektivní uložení stejného objemu dat vyžadovalo 75 TB diskového prostoru). Na základě tohoto řešení byl vybudován referenční datový sklad ve středisku iForce společnosti Sun v Menlo Parku v Kalifornii, který pracuje se 46 TB vstupních dat. Jako hardwarová platforma byly použity servery SunFire 4800 a 6800, softwarovou platformu tvoří Sybase Adaptive Server IQ Multiplex.

Pozn. red.: Autor článku, Vladimír Kyjonka, působí jako manažer společnosti Sybase ČR.
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.


Inzerce

ERP v cloudu

Je skutečně pro každou firmu?

Chcete držet krok s dobou a zvažujete přechod na cloudový ERP systém? Není divu. Cloudová řešení jsou bezpochyby trendem a umožňují firmám rychleji rea­go­vat na změny a nové výzvy, kterým musí v dynamickém a neustále se proměňujícím světě podnikání čelit.