- Přehledy IS
- APS (25)
- BPM - procesní řízení (23)
- Cloud computing (IaaS) (10)
- Cloud computing (SaaS) (31)
- CRM (52)
- DMS/ECM - správa dokumentů (19)
- EAM (17)
- Ekonomické systémy (68)
- ERP (75)
- HRM (28)
- ITSM (6)
- MES (33)
- Řízení výroby (36)
- WMS (28)
- Dodavatelé IT služeb a řešení
- Datová centra (25)
- Dodavatelé CAD/CAM/PLM/BIM... (41)
- Dodavatelé CRM (38)
- Dodavatelé DW-BI (50)
- Dodavatelé ERP (66)
- Informační bezpečnost (48)
- IT řešení pro logistiku (48)
- IT řešení pro stavebnictví (26)
- Řešení pro veřejný a státní sektor (27)


















![]() | Přihlaste se k odběru zpravodaje SystemNEWS na LinkedIn, který každý týden přináší výběr článků z oblasti podnikové informatiky | |
![]() | ||
Data warehouse appliance
Základny pro datové sklady
Vývoj v oblasti BI klade stále větší nároky na hardware a software, který se používá pro uspokojení požadavků uživatelů na informace. S rostoucími nároky na rychlost poskytovaných informací, četnost aktualizací datového skladu a v neposlední řadě rostoucí počet uživatelů informací nutí dodavatele jednotlivých komponent k větší podpoře škálování. Pokud pro databázi dojde místo, řešení je jednoduché – pořídíme si nové disky, v horším případě celé diskové pole. Pokud je však výkonnost nedostačující, máme zpravidla několik možností. Můžeme se zamyslet, zda je náš datový model (jak logický, tak fyzický) optimálně postaven pro typ databáze, kterou požíváme, zda je optimálně využit partitioning, indexy, komprese atd. Pokud neuspějeme, je potřeba se zamyslet nad konfigurací hardwaru, na kterém je databázový stroj provozován. Máme opět několik možností – zvýšení kapacity operační paměti, přidání CPU, zapojení nodu do clusteru spolu s load balancingem atd. Jaké však bude naše překvapení, když po přidání dalších CPU a dalších gigabytů RAM zjistíme, že nárůst výkonnosti databáze, rychlost odezvy dotazů či loadu významných transakčních dat se zlepší jen o několik málo procent? Je to způsobeno zejména tím, že nalezení optimální konfigurace hardwaru pro naše potřeby (v tomto případě potřeby business intelligence, datového skladu) je mnohdy problematické.


Je DWA optimální řešení?
Řešení data warehouse appliance (DWA) je optimální kombinací softwaru a hardwaru, která zaručuje maximální výkonnost databázového systému a tím se snaží překonat tuto černou můru všech BI řešení. Nicméně pojem DW appliance bývá také použit pro databáze, které jsou tvořeny pouze systémem řízení báze dat, avšak velmi se odlišují od standardních databázových systémů. DWA se využívají pro řešení datových skladů středních a velkých velikostí, běžně se kapacita počítá v jednotkách či desítkách terabytů, v několika případech se můžeme setkat i s DWA v řádu petabytů (WallMart). Typickým znakem DWA je snaha nabídnout maximální výkonnost a zároveň minimalizovat cenu za uložení jednoho terabytu dat.
Vlastnosti DW appliance
Pokud bychom chtěli klasifikovat systém jako DW appliance, měl by splňovat následující předpoklady:
- Nízké náklady – jednak nízké nároky na údržbu systému (TCO), tak také nízké náklady na uložení dat. Pro různé DWA se náklady na uložení jednoho terabytu v datovém skladu pohybují mezi deseti a sto padesáti tisíci dolary.
- Výkonné paralelní zpracování – DWA jsou založeny na tzv. masivním paralelním zpracování dat (MPP). V MPP architektuře je několik procesorů nebo serverů, které paralelně zpracovávají data. DWA bývají založeny na principu „shared nothing“, kdy žádná část systému není sdílena více jednotkami zpracování. Jedna jednotka zpracování je tedy tvořena jedním nebo více procesory,
- dedikovanou operační pamětí a disky, kterou jsou využívány pouze touto jednotkou zpracování. Data, která jsou dána DWA ke zpracování, se rozdělí rovnoměrně mezi jednotlivé jednotky zpracování a to umožní maximální paralelismus při následném čtení dat, kdy každá jednotka má na starosti pouze svou přidělenou část dat. Rozdělení dat mezi jednotlivé jednotky zpracování se nazývá distribuce. Pro distribuci používají DWA rozdílné přístupy, nejčastějším je hashování podle vybraného atributu tabulky nebo skupiny atributů, jiným případem je range partitioning (podobně jako v konvenčních RDBMS).
- Různé typy dotazů (mixed workload)
- – DWA jsou schopny zpracovávat různé typy dotazů od různých uživatelů, dokáží prioritizovat dotazy podle uživatelů, rozpoznat dlouhé dotazy od krátkých, přiřazovat určitý poměr zdrojů ke skupině uživatelů.
- Sekvenční čtení dat – sekvenční přístup k datům je typickým znakem DWA na rozdíl od náhodného přístupu ke čtení dat z disků, který je typický pro běžné RDBMS.
- Nízké nároky na administraci – DWA jsou dodávány jedním dodavatelem, není tedy potřeba realizovat komplikované zátěžové a výkonnostní testy pro ověření optimální konfigurace RDBMS, operačního systému a hardwaru. DWA navíc mají automatickou alokaci prostoru pro uložení dat, některé DWA vůbec nepoužívají indexy, čímž odpadá jejich složitá konfigurace a údržba.
- Vysoká dostupnost – většina DWA komponent je provedena redundantně, pokud vypadne jedna jednotka zpracování, její úlohu převezme jiná, buď záložní, nebo aktivní jednotka. DWA mají redundatní síťová připojení, napájení. Všechny disky jsou zrcadlené, pokud je použito diskové pole, pak v konfiguraci RAID 1 nebo RAID 10.
- Škálovatelnost – DWA jsou škálovatelné jak z hlediska výkonu, tak z hlediska kapacity pro uložení dat. DWA mají modulární architekturu, kde přidání dalšího modulu zpravidla neznamená významný výpadek systému. Přidání dalšího modulu znamená v případě DWA jak nárůst výkonnosti, tak nárůst kapacity pro uložení dat, což není typické pro konvenční databázové systémy.
- Plug and play – instalace DWA je velmi jednoduchá, z továrny je vše již nakonfigurováno, nainstalováno, stačí jednoduše zapojit, provést několik základních nastavení a testů a DWA je připravena k použití.
- „Shared nothing“ architektura – architektura nulového sdílení jakékoliv hardwarové komponenty zaručuje DWA rozdělení zpracování na několik paralelních procesů, které jsou zpracovávány nezávisle na ostatních procesech, nedochází zde k úzkým místům, kdy jeden proces čeká na přidělení některého zdroje, který je právě využíván jiným procesem. Zdroji rozumíme v tomto případě CPU, disk a RAM. Opakem architektury je „shared everything“ architektura, kterou používá například Oracle.
Architektura DW appliance
Jak již bylo zmíněno výše, DWA jsou postaveny na MPP (massive parallel processing) architektuře. Opakem MPP architektury jsou SMP (single mode processing) architektury, kdy zpracování všech dat zajišťuje pouze jedna jednotka zpracování. DWA je typicky tvořena několika jednotkami zpracování (nody), kde každá má na starosti část záznamů tabulky. Data jsou distribuována přes jednotlivé nody podle zvoleného klíče, nebo náhodně. DWA si udržuje tabulku distribuce dat, podle které vždy přesně ví, který node požádat o data pro konkrétní SQL. Zpracování pak probíhá tak, že na některém nodu (nebo na všech) běží služba, která přijímá SQL dotazy, parsovací mechanismus vyhodnotí SQL a rozhodne se, které nody osloví s žádostí data. Oslovené nody pak předají svou část dat zpracovávajícímu nodu, který zajistí výsledné zpracování dotazu, provede joiny, agregace, třídění. Některé komplexní operace, jako například joiny, mohou však být provedeny ještě před tím, než oslovený node předá data ke konečnému zpracování řídícímu nodu, a to v případě, kdy jsou všechna potřebná data pro join operaci uložena na jednom.
Typickým příkladem je spojení dvou tabu-lek, které mají stejný distribuční klíč.
Zástupci DW appliance
Teradata
Teradata působí na trhu DWA nejdéle. Byla založena v roce 1979, v roce 1992 se stala součástí společnosti NCR, v té době vlastněné AT&T, v roce 1996 se NCR stala opět samostatnou společností a v roce 2007 bylo dokončeno rozdělení NCR a Teradata. Teradata je dodavatelem velkých systému pro datové sklady, největší z nich dosahují řádově petabyty.
Teradata prošla dlouhým vývojem, v současné době je nabízena verze Teradata 12, která byla uvedena na trh koncem roku 2007. Nicméně o této nejnovější verzi ještě není k dispozici mnoho informací, nejzajímavější změnou je podpora range partitioningu a sub partition a vylepšené řízení současného zpracování různých typů dotazů od různých uživatelů (mixed workload management).
Teradata je robustní systém, avšak poměrně drahý, mezi DWA je na cenovém žebříčku druhý nejdražší, hned za IBM. Teradata byla svého času unikátní platformou, která svou obchodní strategii založila na srovnání a boji s platformou UDB od IBM. V současnosti však musí čelit ostré konkurenci ostatních DWA dodavatelů.

Její node je v podstatě SMP server, který se skládá z jednotek zpracování, tzv. VPROCs, které mezi sebou sdílí CPU a RAM tohoto serveru. VPROC může pracovat jako parsing engine (PE), který má na starosti přijímání uživatelských požadavků, optima-lizaci dotazů, rozdělení dotazů na jednotlivé části, které poběží pokud možno paralelně, a nakonec distribuci částí dotazu na jednotlivé AMPy. AMP (access module processor) má dedikovánu vždy část diskového pole (VDISK), nad kterou má plnou kontrolu. BYNET je velmi rychlá síť zajišťující komunikaci mezi jednotlivými AMPy a dále mez AMPy a PE.
Teradata je lineárně škálovatelná (obdobně jako ostatní DWA). Verze V2R6.1 s diskovým polem s disky 78 GB v RAID1 má celkovou kapacitu jednoho node přibližně jeden terabyte, do této kapacity je však potřeba započítat ještě spool space a temp space, které tvoří přibližně třicet procent celkové kapacity. Na uživatelská data tedy nakonec zůstane 0,7 TB.
Výhodou z hlediska rozšiřitelnosti je možnost dokupování pouze jednotlivých nodů, pokud je dostačující kapacita komponenty BYNET. V opačném případě je potřeba spolu s nodem dokoupit také BYNET, případně další komponenty.
Netezza Performance Server (NPS)
Netezza je v současné době asi nejvíce viditelnou společností mezi dodavateli DWA. Dodává rovněž robustní řešení, které se používá pro enterprise řešení datových skladů. Nejvyšší model NPS 10800 dosahuje kapacity pro uživatelská data sto terabytů. Řešení Netezza používá v současnosti zhruba stovka zákazníků. Koncem roku 2006 se podařilo prodat nejvyšší model NPS10800 společnosti Catallina Marketing, která se zabývá marketingovými analýzami a kampaněmi. Netezza nedávno oznámila, že v brzké době představí model, který bude schopen zpracovat jeden petabyte.
Nejlepší výkony dosahuje Netezza u ideálně distribuovaných dat, kde většina joinů je realizována lokálně na jednotlivých nodech (SPU). Pokud je však dotaz komplexnější, hůře distribuovaný a paralelizovatelný, pak výkonnost Netezza serveru klesá. Rovněž se objevují problémy v případě, kdy NPS zpracovává více dotazů současně. Pokud měl server najednou aktivních dvacet dotazů, pak výkonnost celého systému rapidně klesá. Záleží však na typech dotazů. Společnost Netezza tvrdí, že jejich systém je tak rychlý, že více než dvacet dotazů současně se na serveru neobjeví.
Netezza, podobně jako Teradata, je založena na proprietárních hardwarových komponentách, její architektura je však naprosto odlišná. Základní jednotku zpracování zde představuje SPU (snippet processing unit), což je komponenta, která obsahuje jeden CPU PowerPC 6, 1GB RAM, chip FPGA (field programmable array) a jeden pevný disk SATA o kapacitě 400 GB. Čtrnáct SPU tvoří SPA (snippet processing array), který je pomocí SFI (switched fabric interface) propojen prostřednictvím Dual Gigabit Ethernet s ostatními SPA. Pro komunikaci mezi jednotkami se sice používá klasický ethernet, avšak místo protokolu TCP/IP je použit opět proprietární protokol FCOM.
Základní funkcionalitou chipu FPGA je tzv. streaming architektura. Běžné RDBMS, včetně ostatních DWA, vždy nejprve čtou data z disku, pak je uloží do cache a až v pa-měti probíhá jejich zpracování. Streaming architektura Netezza už při čtení zajišťuje zpracování dat pomocí FPGA a do paměti se pak ukládají již předzpracovaná data. Tento postup velmi urychluje zpracování SQL dotazů. Další hardwarovou komponentou Netezza Performance Serveru (NPS) je host PC, což je ve skutečnosti SMP node (HP ProLiant), který zajišťuje zpracování, optimalizaci a paralelizaci SQL uživatelských dotazů.
Netezza využívá open source databázi PostgreSQL, která byla optimalizována pro potřeby databázového stroje. Jako operační systém pro Host PC je použit RedHat Linux.
Netezza Performance Server je podobně jako Teradata lineárně škálovatelná, tzn. že dodatečnými SPU narůstá jak výkon, tak kapacita pro uložení dat. NPS lze však kupovat pouze jako celý model, tedy po jednotlivých SPU. Tuto nevýhodu se společnost Netezza snaží překonat svou obchodní strategií, kdy zákazník si sice pořídí model například NPS10100 s kapacitou 12,5 TB, zaváže se však, že bude využívat pouze určitou část kapacity. Tím Netezza umožní využívat plný výpočetní výkon všech 112 SPU i pro jen omezené množství dat.
HP Neoview
Společnost Hewlett-Packard v roce 2006 představila své vlastní řešení s názvem HP Neoview.
Tato DWA se snaží pozicovat na trhu mezi Teradatou a klasickými DWA, jako Netezza, DATAllegro a Greenplum. Cenově je podstatně levnější než Teradata, avšak dražší než Netezza a ostatní DWA. Cena se pohybuje okolo dvě stě tisíc dolarů za jeden terabyte.
Další obchodní strategií, na které společnost HP staví, je garance velké společnosti, jako je HP, dokonalá podpora produktu v případě problému a režim podpory 24×7. Dále pak garance dalšího rozvoje platformy, která není až tak jistá u menších společností nabízejících DWA. HP Neoview je MPP systém, který je nabízen v pěti verzích, a to podle celkového počtu procesorů ve všech nodech – 16, 32, 64, 128 nebo 256 dvoujádrových procesorů Intel Itanium 64 bit. Jednotlivé nody systému jsou běžně dostupné HP Integrity servery, každý má dva procesory. Každý node má 16GB RAM. Tyto nody jsou jednotkou zpracování, zajišťující paralelismus. HP Neoview se dodává ve standardních kabinetech, 16procesorový model ve dvou kabinetech, 32procesorový ve třech. Nejvyšší model s 256 procesory potřebuje 23 kabinetů. Data jsou uložena na diskovém poli HP Storage-Works, které používá 146GB disky s 15 000 rpm v konfiguraci RAID 1, tedy plný mirroring. Komunikaci mezi procesory navzájem a mezi disky a procesory zajišťuje HP Switch Fabric založené na HP ServerNet technologii, které má zajistit dostatečnou propustnost komunikace. Na druhou stranu právě toto by mohlo být slabé místo této technologie, tedy nedostatečná prostupnost v porovnání například s Netezza, kdy disk je přímo spojen s procesorem. Každý procesor obsluhuje dva logické datové disky (LUN), čímž zaručuje efektivní sekvenční čtení z dat z disků.
Operační systém a zároveň databáze je u této DWA systém Tandem Nonstop, který byl upraven pro potřeby HP Neoview a pro zajištění paralelismu. Na rozdíl od klasických DWA, jako Netezza, Greenplum a DATAllegro, se HP Neoview snaží držet krok i s klasickými RDBMS, protože umožňuje používání B-Tree indexů na tabulkách, materializovaných view apod.
DATAllegro
Společnost DATAllegro byla založena v roce 2003 se záměrem nabízet řešení v oblasti paralelních datawarehouse řešení. Jedná se
o menší společnost (oproti výše zmiňovaným), avšak její produkt určitě stojí za zmínku. DWA se značkou DATAllegro nemá ve světě zatím žádnou referenci velkého datového skladu, spíše jen menších řešení data martů. Nejvyšší model této DWA však nabízí kapacitu až tři sta terabytů. DAT-Allegro není založené na proprietárních komponentách, ale standardně dodávaných dílech. Strategií společnosti je výrazná komparativní výhoda v ceně, kdy cena za jeden terabyte je méně než poloviční v porovnání s produktem Netezza, a desetinová v porovnání s Teradatou či HP Neoview.
Architekturu DATAllegro tvoří jednotky (nody) Dell, kde každá má dva CPU (Intel, 64 bit) a diskové pole EMC s 12 SATA pevnými disky v konfiguraci RAID 0. Jednotlivé nody jsou propojeny rychlou sítí Infiniband (až 20 Gbit), která zaručuje maximální propustnost i při velkých přesunech dat. Nody této DWA mohou pracovat buď jako slave, nebo jako master. Master node má za úkol naslouchání uživatelských dotazů, tvorbu exekučního plánu, optimalizaci dotazů a distribuci dotazů a dat na jednotlivé slave nody, které pak mají na starosti čtení z disků. Master node zde plní funkci host PC v případě Netezzy, či gateway v případě Teradaty. Základní model má jeden master node a dva slave nody, nejvyšší model šest master a 120 slave nodů.
DATAAllegro nabízí na rozdíl od ostatních dodavatelů i různě výkonná řešení. To může být výhodné při budování tzv. multi-temperature data warehouse, kdy důsledně rozlišujeme data podle jejich aktuálnosti. Nejnovější data musí být k dispozici co nejrychleji, tedy mohou být uložena na výkonnější platformě. Jednotlivé DWA lze pak propojit do gridu a tím získat jeden zdroj dat pro různě aktuální data.
Greenplum
Greenplum je podobně jako DATAllegro menším hráčem na trhu DWA, avšak může se pochlubit několika zajímavými referencemi na větší řešení datového skladu, například pro filipínského telekomunikačního operátora. Greenplum má obrovskou výhodu oproti jiným DWA – lze jej velmi snadno provozovat na hardwaru libovolného výrobce. Společnost Greenplum však uzavřela partnerství se společností Sun, která ucítila velkou příležitost v oblasti DWA a tak současné řešení je dodáváno na serverech Sun. Cena za jeden terabyte je podobná DAT-Allegru a začíná na 17 500 dolarech.
Architektura DWA Greenplum je založena na Sun serverech. Sun Fire X4100 slouží jako host server, který přijímá SQL dotazy, optimalizuje je a rozděluje na menší jednotky, které jsou zpracovány paralelně. Paralelní zpracování pak zajišťují SMP servery Sun Fire X4500, kde každý je tvořen dvěma dvoujádrovými procesory AMD Opteron, 16GB RAM a diskovým polem s celkovou kapacitou 24 terabytů. Paralelní zpracování je opět zajištěno rozdělením datového prostoru na malé segmenty, které umožňují zpracovávání svých dat paralelně jednotlivými nody systému.
Databáze Greenplum je založena na standardu open source databáze PosgreSQL, využívá rovněž některé prvky systému Bizgres. Operačním systémem je Sun Solaris.
U Greenplum je potřeba pamatovat na licence databází, kdy pro každý procesor celé appliance je potřeba počítat s jednou licencí databáze Greenplum. Tedy pro model s dvaceti terabyty čtyři licence, se čtyřiceti terabyty osm licencí a se sto terabyty dvacet licencí.
IBM BCU
IBM BCU (Balanced Configuration Unit) je založena na vyvážené konfiguraci hardwaru IBM a databáze DB2 UDB. Jedná se o nejnákladnější řešení ze zde zmiňovaných, zároveň však je to MPP systém s poměrně dlouhou historií a řadou referencí. Řešení DWA od IBM je postaveno na vrstvách. Nejnižší vrstvou je BPU (balanced partiion unit), která představuje partition databáze, k nimž je možné přiřazovat zdroje, jako CPU, disky a síťové porty. Operační paměť je v tomto případě sdílená mezi více BPU. Nadřazenou vrstvou k BPU je pak BCU, což je v podstatě samostatně fungující databázový stroj, a nejvyšší vrstvou je pak HA-BCU (high available balanced configuration unit), která umožňuje propojení jednotlivých BCU do clusteru a tím zajistit maximální dostupnost serveru.
Oracle Information Appliance
Společnost Oracle si rovněž uvědomila, že trh DWH řešení se vyvíjí směrem k DWA a rozhodla se představit své řešení na platformě Dell. V oblasti DWA se tak již pohybují všichni velcí hráči – IBM, Dell, HP, Sun, Oracle – jediný, kdo zatím chybí, je Microsoft.
DWA na platformě Oracle je v podstatě maximálně optimalizovaná konfigurace RAC (real application server) na serverech Dell Power Edge 2950 a s diskovými poli Dell/ EMC CX3-10 Clariion. Pokud bychom šli do hloubky, tak se v podstatě nejedná o typickou DWA, která je jednoduše instalovatelná, vyznačuje se architekturou „shared nothing“ (žádné sdílení systémových zdrojů) apod. Podle některých studií, kde Oracle appliance byla srovnávána například s Netezzou však vyšlo, že Oracle dokáže být v některých typech dotazů rychlejší a pro určitou konfiguraci také levnější než právě Netezza.
Srovnání systémů DW appliance
Podle „kouzelného kvadrantu“ publikovaného koncem roku 2007 společností Gartner, je na vedoucím místě v oblasti databázových systémů pro datové sklady jednoznačně Teradata, následována Oraclem a Microsoftem. Všichni dodavatelé DWA (Netezza, Greenplum, DATAllegro) patří do segmentu vizionářů. Zatím se není čemu divit, DWA jsou mladou oblastí (pokud nepočítáme Teradatu) a jejich čas teprve přijde. Mezi hlavní slabiny dodavatelů DWA zatím patří jejich nezkušenost na trhu, malá síť partnerů, podpora produktu, další rozvoj. Naopak předností je výrazně nižší cena oproti stávajícím řešení, rychlost odezev a rychlost instalace systémů. Následující tabulka uvádí srovnání výše zmíněných DWA.
Závěrem
Obecné povědomí světa business intelligence o DWA je takové, že DWA nejsou natolik sofistikovaným řešením jako datové sklady realizované klasickými technologiemi – Oracle, MS SQL Server nebo IBM DB2. Odstup DWA od klasických technologií se však stále více zmenšuje a DWA začínají posilovat svou pozici na trhu řešení datových skladů. Důkazem rostoucího tlaku jsou právě reakce dodavatelů klasických technologií, kteří se buď snaží zařadit se svými technologiemi rovněž mezi DWA, případně uzavírají partnerství s dodavateli ostatních BI technologií, například Business Objects nebo Cognos, aby posílili svá balíková řešení. V každém případě rozvoj a vzájemná konkurence dodavatelů DWA systémů může znamenat jen plus pro koncové zákazníky, například v podobě zvýšení parametrů, snížení cen a podobně.
Upozornění: Informace o konkrétních produktech uvedené v článku byly získány z veřejně dostupných internetových zdrojů v době tvorby článku (první čtvrtletí 2008). Platnost uvedených informací se může v čase měnit.



![]() ![]() | ||||||
Po | Út | St | Čt | Pá | So | Ne |
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 1 | 2 | 3 | 4 |
5 | 6 | 7 | 8 | 9 | 10 | 11 |
Formulář pro přidání akce
15.5. | Konference SCADA Security |
22.5. | Akce pro automobilové dodavatele "3DEXPERIENCE... |
12.6. | Konference ABIA CZ 2025: setkání zákazníků a partnerů... |
29.9. | The Massive IoT Conference |