- Přehledy IS
- APS (25)
- BPM - procesní řízení (23)
- Cloud computing (IaaS) (10)
- Cloud computing (SaaS) (31)
- CRM (52)
- DMS/ECM - správa dokumentů (19)
- EAM (17)
- Ekonomické systémy (68)
- ERP (75)
- HRM (28)
- ITSM (6)
- MES (33)
- Řízení výroby (36)
- WMS (28)
- Dodavatelé IT služeb a řešení
- Datová centra (25)
- Dodavatelé CAD/CAM/PLM/BIM... (41)
- Dodavatelé CRM (38)
- Dodavatelé DW-BI (50)
- Dodavatelé ERP (66)
- Informační bezpečnost (48)
- IT řešení pro logistiku (48)
- IT řešení pro stavebnictví (26)
- Řešení pro veřejný a státní sektor (27)


















![]() | Přihlaste se k odběru zpravodaje SystemNEWS na LinkedIn, který každý týden přináší výběr článků z oblasti podnikové informatiky | |
![]() | ||
Business intelligence jako open source
V současném světě IT jsou stále častěji zmiňována dvě téměř magická slova „open source“. Často se zdá, že není možné prohlédnout si IT časopis, poslechnout si IT konferenci, aniž by tam nepadlo něco o open source. Ta dvě slova zásadním způsobem změnila, respektive rozšířila chápání počítačového softwaru a dnes se začínají silně dotýkat také oblasti datových skladů (DWH) a business intelligence (BI).


Výhody open source BI
Open source má zejména ekonomický smysl, bourá striktní licenční politiku komerčních nástrojů a vede k minimálním nebo nulovým nákladům za licence. Open source licence zároveň umožňují rozšířit řešení na neomezený počet uživatelů a neomezený počet procesorů.
Vždy existuje velká komunita vývojářů, která společně pracuje na nových vylepšeních systému. Cílem open source komunity je vývoj takového systému, který bude splňovat nejvyšší nároky na něj kladené. Velká komunita vývojářů je výborným zdrojem informací při řešení problémů se systémem.
Vznikne tak plně funkční software bez dodatečné funkcionality – komerční nástroje obsahují velké množství funkcí, které pro běžný projekt nejsou vůbec potřeba. S open source systémem je možné si stáhnout pouze tu funkcionalitu, kterou uživatel aktuálně potřebuje, a postupně tuto funkcionalitu rozšiřovat.
Překážky pro open source BI
Na druhou stranu vůči open source řešení existuje ve firmách řada předsudků. Typické je zejména vnímání, že open source je něco nezdravého, s množstvím chyb, neexistuje žádná podpora, technická dokumentace, množství a rychlost změn v systémech způsobuje nestabilitu systému, neexistuje žádná roadmapa dalšího vývoje.
Částečně je toto vnímání pravdivé, ale je potřeba odlišit skutečně dobré OSS BI produkty, které má smysl implementovat, od těch, které teprve začínají a budují si svá místa na trhu. Většina firem produkujících OSS řešení nevydělává na poplatcích za licence, ale za technickou podporu, rozšířenou funkcionalitu a za konzultační služby spojené s OSS systémem, takže i tento mýtus můžeme vyvrátit.
Zastánci tradičních nástrojů také tvrdí, že OSS neposkytuje dostatečnou funkcionalitu, kterou komerční produkty dnes již standardně obsahují. V tomto aspektu je potřeba se nejprve zamyslet, co skutečně budeme potřebovat pro naše řešení – budeme potřebovat replikace? Data Guard? OLAP databázi zabudovanou do relační databáze? OSS nám umožňuje vybrat si pouze to, co skutečně budeme potřebovat.
Z hlediska kvality poskytované podpory je pravdou, že ačkoli ji většina OSS firem poskytuje, nemůže se srovnávat s výrobci komerčních nástrojů, kteří mají velké partnerské sítě a mnoho spolupracujících konzultačních firem s dokonalým know-how. Ověření dostupnosti podpory a její kvality by mělo být jedním z kritérií rozhodování o používání OSS.
Co je to open source
Podle Wikipedie: „Open source software (OSS) je počítačový software s otevřeným zdrojovým kódem. Otevřenost znamená jak technickou dostupnost kódu, tak legální dostupnost, která umožňuje, při dodržení jistých podmínek, uživatelům zdrojový kód využívat, například prohlížet a upravovat.“V nepřesném smyslu se jako open source označuje také software, který je možné bezplatně používat, nebo jako označení způsobu vývoje, který úplně, nebo z podstatné části vede dobrovolnická komunita.
I když se open source licence označuje jako bezplatná, řada firem, která používá software ve svých produkčních prostředích, platí OSS firmám za speciální služby, jako jsou technická podpora, dodatečná funkcionalita systému nebo jiné služby. I tak jsou ale celkové náklady systému (TCO) pouze zlomkem toho, co by bylo vynaloženo za komerční produkt.
Open source není samozřejmě nic nového, objevil se již na počátku devadesátých let a patrně největší boom zažívá při vývoji různých odnoží systému Linux. Teprve v nedávné minulosti však začaly mít open source databázové systémy parametry srovnatelné s komerčními databázemi, a tak se řada firem začala poohlížet po těchto alternativách.
- Podle výzkumu společnosti Aberdeen (www.aberdeen.com) z roku 2008 uvažuje 25 procent respondentů o nasazení open source BI v horizontu 12 až 24 měsíců.
- V roce 2008 se objem výnosů z prodeje služeb a produktů založených na open source zdvojnásobil oproti předchozímu roku.
- Podle výzkumů společnosti Gartner používá 11 procent oslovených firem open source ETL, dalších 16 procent respondentů uvažuje o využití open source v příštích měsících.
Open source BI nástroje
Nástroje pro open source BI se začaly objevovat díky komunitě vývojářů okolo databázových systémů MySQL, PostgreSQL a Ingres. Později, na základě těchto databázových systémů, vznikly buď zcela open source řešení zaměřená výhradně na potřeby skladování a analýzy velkého množství dat, jako například InfoBright, nebo komerční řešení, jako Netezza, Greenplum a jiné. Ve světě open source však můžeme najít i ETL nástroje, jako Talend nebo Pentaho Data Integration, a ke kompletaci open source BI architektury existuje několik povedených open source reportingových nástrojů, například Pentaho, Jasper Server a další. Než se podíváme na některé nástroje podrobněji, ještě několik málo slov o licencování.
Všechny zmiňované nástroje se licencují jako OSS. Většina z nich je však dostupná ve dvou verzích: „community“ a „enterprise“. Komunitní verze je čistý open source, k dispozici jsou zdrojové kódy, vše je zdarma, volně šiřitelné, neexistuje však technická podpora, některá rozšířená funkcionalita, tištěná dokumentace, automatické zasílání patchů apod. Enterprise verze obsahuje plnou funkcionalitu verze komunitní, navíc však ještě technickou podporu, rozšířenou funkcionalitu, patche a další služby. Enterprise verze, jak už to bývá, není zcela zdarma. Za tuto verzi se platí tzv. subscription, což je měsíční nebo roční poplatek. Ve srovnání s komerčními produkty je však minimální a jen zřídka se vztahuje na objem uložených dat nebo na počet uživatelů.
OSS databáze
Mezi hlavní pilíře open source světa ve světě relačních databází patří MySQL a PostgreSQL. Obě databáze mají v komunitní verzi veškerou funkcionalitu databázového serveru. Enterprise verze se liší technickou podporou a v případě MySQL klientskými nástroji pro monitoring databáze. Ponechme nyní stranou přednosti těchto strojů pro transakční zpracování dat (OLTP) a zaměřme se na to, co umí dělat s velkými objemy dat.
MySQL
Databázový stroj MySQL je aktuálně dostupný ve verzi 5.1. Verze 5.0 byla uvolněna koncem roku 2005 a její vylepšení se zaměřila především na podporu konceptu Web 2.0, tedy mnoha uživatelů přispívajících k obsahu. Předchozí verze MySQL byly vhodné spíše pro jednodušší typy úloh, nevyžadující referenční integritu, programovou nadstavbu. Několik posledních verzí však udělalo obrovský skok a MySQL se z jednoduché databáze s velmi rychlým čtením dat stává plnohodnotným databázovým strojem. Verze 5.1 se dále zaměřila na maximální funkcionalitu pro datové sklady. MySQL je dostupné téměř pro všechny operační systémy.
Co tedy najdeme v MySQL:
Především volitelný způsob uložení dat. Pro každou tabulku je možné si vybrat, jakým způsobem bude uložena, a tedy i jakým způsobem se bude později přistupovat k datům. MySQL má několik předpřipravených úložišť, které se liší ve způsobu zamykání, logování transakcí, způsobu uložení dat. Pro potřeby DWH je nejužitečnější MyISAM úložiště, které pro každou tabulkou vytvoří minimálně dva soubory – jeden popisující strukturu a druhý obsahující data. Toto úložiště nezapisuje operace do transakčního logu, a proto je maximálně výkonné. Samozřejmostí je používání indexů s výběrem několika typů, jako například B-tree, bitmap, hash. Jiným vhodným úložištěm je Memory, které drží data pouze v paměti a při restartu serveru jej ztratí. Toto je velmi výhodné použití při loadu do DWH pro dohledávání hodnot v číselnících. Užitečné je také úložiště CSV, které veškerá data ukládá v CSV souborech, tedy jako „externí tabulky“ v podání open source. Úložiště Federated umožňuje propojení na tabulky uložené v jiných databázích. Pro každou tabulku je možné specifikovat „data directory“, kam se budou data ukládat. Pokud máme diskové pole, můžeme data „rozházet“ podle libosti.
- Partitioning je mechanismus, který rozdělí data tabulky podle určitého algoritmu na několik částí a k těmto částem pak přistupuje zvlášť a umožňuje i paralelní zpracování dotazů běžících nad několika partitions. Bez tohoto mechanismu si už neumíme DWH ani představit. A světe div se, MySQL partitioning dokáže předčit i své komerční soupeře. MySQL umí klasický range partitioning (tedy specifikací hodnot od–do), dále pak value partitioning, list partitioning a hash partitioning. Každá partition se dá dále dělit na subpartitions, každá partition se dá uložit na jiný disk, jiné diskové pole. Definice partitions pro tabulky je velmi jednoduchá, v podstatě ji obstarává databázový stroj.
- Vysoká dostupnost umožňuje redundantní uložení dat. Toto je zajištěno v MySQL pomocí replikací, která je buď „row based“, kdy se přenáší změny pomocí logování změn pro každý řádek, nebo replikace fungují v mix módu, kdy databázový stroj sám rozhodne, zda je výhodnější replikovat po řádcích, nebo zaslat z master instance na slave pouze DML.
Mezi další funkcionalitu MySQL patří paralelní load dat (bulk load), query cache, multi-insert DML, cost based optimizer, load balancing a další.
InfoBright
InfoBright je databázový stroj postavený nad MySQL. Je to v podstatě jeden typ datového úložiště maximálně optimalizovaný pro potřeby DWH. Zatímco MySQL ukládá data do bloků po řádcích, InfoBright ukládá data do bloků po sloupcích. Využívá tak podobný koncept jako jiné „columnar“ databáze, například SybaseIQ, Vertica nebo Kognitio. InfoBright je však jako jediný dostupný i v open source verzi. Data jsou ve sloupcích uložena do tzv. packů, jeden pack obsahuje například hodnoty sloupce A pro řádky 1 až 65 000, další pack pro další řádky a pro dotazy se používají pouze ty packy, které obsahují požadovaná data. InfoBright má propracované automatizované udržování statistik, které stále zaručuje dobrou výkonnost systému. Uložení dat v packu umožňuje také výhodnou kompresi dat, protože jsou komprimovány pouze hodnoty jednoho sloupce, ne celý řádek. InfoBright dosahuje kompresního poměru od 1:10 až 1:40. Dále zde najdeme výkonný loader s výkonem až 280 GB dat za hodinu. Tato databáze se hodí na vyšší objemy dat, v rozmezí 500 GB až 30 TB. Naproti tomu MySQL samotné se dá úspěšně provozovat s přibližně jedním terabytem dat. Komunity verze InfoBright je však dost omezená, neumožňuje například insert, update, delete, data je možné vkládat pouze pomocí bulk leaderu.
PostgreSQL
PostgreSQL vymyslel profesor Michael Stonebreaker společně se svými studenty v roce 1986 na základech svého předchůdce Ingres. Původně univerzitní projekt se vyvinul v jednu z nejstabilnějších open source databází. PostgreSQL je nejpoužívanější open source databází pro složitější řešení, nabízí funkcionalitu pro snadnější migraci z komerčních databází, obsahuje programovou nástavbu (pgsql), která umožňuje podobné kódování jako například PL/SQL v Oracle. Na rozdíl od starších verzí MySQL umí PostgreSQL referenční integritu. PostgreSQL je teoreticky vhodná pro objemy dat až do 32 TB. Co najdeme v PostgreSQL:
- Partitioning je na rozdíl od MySQL krkolomnější. Jednotlivé partitions se vytvářejí z tabulek pomocí dědění. Pro master tabulku je pak potřeba napsat funkci nebo trigger, který zajistí vkládání do správné partition. Dotazy nad partition tabulkami mají dále spoustu omezení, které je potřeba dodržet, aby optimalizátor využil všechny přednosti partitioningu při zpracování dotazu.
- Škálovatelnost a vysoká dostupnost umožňuje vytvářet grid, který pracuje jako failover cluster, tedy při výpadku jednoho uzlu se přepnou dotazy na jiný uzel. Stejně tak je možné pomocí nadstavby PgSQL Proxy použít rozložení výkonu (load balancing). Podobně jako v MySQL je synchronizace dat mezi uzly zajištěna pomocí replikací.
PostgeSQL je základem některých komerčních databázových strojů, jako například Netezza. PostgreSQL je také hlavní databázovou platformou společnosti Skype.
MySQL | InfoBright | PotgreSQL | |
---|---|---|---|
Efektivní objem dat pro DWH | < 2 TB | 500 GB – 30 TB | teoreticky < 32 TB |
Způsob uložení dat | řádkové uložení DB file, soubory tabulek, CSV, MEMORY" |
sloupcové uložení DB file |
řádkové uložení DB file |
Komprese | pouze pro některé typy uložení (InnoDB) | ano, až 1:40 | ne |
Partitioning | hash, range, list, value | automatická distribuce dat | range |
Indexy | B-tree, bitmap, hash | stejně jako MySQL, v principu ale nejsou potřeba. | B-tree, hash, gist, gin, in memory bitmap |
Bulk loader | ano | ano, 280 GB/hod | ano |
Vysoká dostupnost | ano, cluster, replikace | zatím není | ano, cluster, replikace |
Škálovaletnost | ano – další CPU, uzly, disková pole | ano – další CPU, disková pole | další CPU, uzly, disková pole |
Hlavní omezení komunitní verze | klientské nástroje pro monitoring, optimalizaci | pouze bulk load, není povoleno insert, update, delete | Oracle kompatibilita, hot-standby |
Enterprise verze – roční subscription | Basic: 479 eur Silver: 1 599 eur Gold: 2 399 eur Platinum: 3 999 eur" |
Silver: 13 100 eur/TB Gold: 17 100 eur/TB Platinum: 21 100 eur/TB" |
poskytováno dodavateli jednotlivých komponent |
Open source ETL
Nástroje pro extrakci, transformaci a load dat (ETL) za sebou ve světě OSS nemají takovou historii jako databáze, ale můžeme zde najít několik nástrojů, které lze využít pro budování menšího až středně velkého řešení datového skladu. Podrobněji si popíšeme dva zástupce: Talend Open Studio a Pentaho Data Integration.
Talend Open Studio
Společnost Talend (www.talend.com) je o něco mladší než Pentaho, ale jako investoři za ní stojí velké finanční skupiny, které mají své podíly například v MySQL.
Talend Open Studio je open source ETL, které podobně jako komerční ETL používá příjemné GUI pro návrh loadu a transformace dat. GUI využívá prostředí Eclipse. Z grafického návrhu ETL se vygeneruje kód v Java nebo Perl, který je možné dále upravovat. Spouštění transformací je spouštěním Java nebo Perl kódu, pro naplánování spouštění je potřeba použít externí nástroj. Talend umožňuje jak návrh transformace a loadu dat, tak návrh workflow a závislostí mezi jednotlivými transformacemi. Talend obsahuje konektory pro všechny známé databáze, jak pro běžný přístup pomocí JDBC, tak pro bulk load. Najdeme zde konektory i pro taková prostředí jako Netezza, Teradata nebo Greenplum. Mimo databázi má Talend konektor pro přístup do knihoven systému SAP. Pro load datového skladu lze využít předpřipravené komponenty pro load historizovaných dimenzí. Prostředí Talendu je velmi podobné DataStage nebo Informatice. Pro transformaci jsou zde všechny základní transformační prvky jako join, split, filter, aggregator, normalizer atd. V transformaci lze používat JAVA, respektive Perl funkce, lokální nebo globální proměnné.
Z hlediska výkonu je Talend Open Studio zhruba dvakrát rychlejší než Pentaho Data Integration, a to téměř ve všech typech transformací, jako load z textového souboru do tabulky, použití lookups, agregace, filtrování. Při srovnání s komerčními nástroji je Talend o něco málo rychlejší než Informatica na datech do zhruba desítek milionů záznamů, protože Informatica ztrácí až třicet sekund času na spouštění a inicializaci jobů. Na větších objemech dat však Informatica získává jasnou převahu. Z často používaných komponent Talendu chybí výkonný lookups. V Enterprise verzi můžeme dále nalézt propracovaný monitoring jobů, vzdálené spouštění jobů, sdílenou repositury pro více vývojářů nebo load balancing.
Cenu Enterprise verze Talend nezveřejňuje. Je stanovena jako měsíční poplatek za jednoho vývojáře a díky tomu je možné flexibilně upravovat počty licencí podle počtu vývojářů. Základní enterprise verze umožňující sdílený vývoj více vývojářů stojí přibližně 950 eur měsíčně na jednoho vývojáře.
Pentaho
Společnost Pentaho (www.pentaho.com) sebe sama označuje za vedoucí společnost v oblasti open source pro business intelligence. Vedle ETL nástroje Pentaho Data Integration nabízí také nástroje pro reporting, reportingový portál, dashboardy, ad-hoc analýzy apod. Pentaho Data Integration (POD) je postaven na základě předchozího nástroje Kettle a je nabízen pod LGPL licencí (licence pro open source, nástupce GNU) nebo komerčně. V open source (LGPL) verzi najdeme GUI, jádro ETL systému a několik konektorů pro databáze. Nicméně proti Talendu jich je mnohem méně a například konektor do SAPu je pouze komerční. Práce s PDI je lehce odlišná od filozofie práce s ostatními ETL, jako Talend nebo Informatica, ale je to pouze o zvyku vývojářů. Proti Talendu obsahuje PDI ve své komunitní verzi to, co je v Talendu pouze za příplatek – sdílený vývoj, vzdálené spouštění jobů apod.
Pro menší projekty tak může být PDI velmi dobrou alternativou k manuálně kódovaným transformačním procedurám. Je zhruba dva- až třikrát pomalejší než Talend, ale na menších datech je to zanedbatelné. V komerční verzi jsou nabízeny další konektory, a zejména technická podpora.
CloverETL
V přehledu open source ETL nástrojů nesmíme zapomenout na nástroj českých vývojářů, který si postupně získává velkou popularitu ve světě. CloverETL je produktem společnosti OpenSys (www.opensys.com) postavený na frameworku Java. Pod LGPL licencí nabízí jádro ETL systému, které obsahuje velké množství transformačních prvků. ETL GUI umožňující jednoduchý návrh ETL je však již za příplatek, stejně tak CloverETL Server, který má na starosti monitoring a spouštění transformačních jobů.
BI open source architektura – kam dále?
Pokud tedy uvažujete o vybudování kompletní BI architektury s pomocí open source nástrojů, není to již žádná scince fiction, ale reálná možnost s mnohem menší mírou rizika než před několika lety. Největší výhodou open source řešení, i v případě komerčních verzí open source, je prakticky neomezená možnost rozšiřování na počty uživatelů, škálování, dodávání dalších CPU, dalších uzlů systému apod. To vše za nulové dodatečné náklady na licence nástrojů. V přehledu nebyly sice zmíněny reportingové nástroje, ale ve světě open source jich také najdeme pěknou řádku. O těch snad příště.
Můžeme tedy ušetřit náklady na softwaru. A co hardware? Myslíte si, že pořád budeme kupovat nové servery a vyhazovat staré? Řešení můžeme hledat v nové formě server hostingu, který se označuje cloud computing. Je to výborná služba, pokud si nechcete pořizovat servery a zajišťovat si jejich správu, a mimoto máte stále možnost požádat o jejich rozšíření, o další CPU, další paměť, další diskové úložiště. Služba se platí za počet procesorů, velikost paměti a alokovaného diskového prostoru. Vše s vynikající dostupností 24 hodin denně, sedm dní v týdnu. Servery jsou dokonale zabezpečené, takže nehrozí, že by se někdo nepovolaný dostal k vašim datům. Někteří open source dodavatelé již proklamují, že jsou připraveni na cloud computing, jiní dokonce již provozují datová centra tohoto typu a nabízí službu „BI as a service“ nebo „DWH as a service“. V tomto případě máte u poskytovatele k dispozici vše, co potřebujete k vybudování BI architektury – tedy hardware, databázi, ETL i reportingové nástroje. Nestojí to alespoň za zamyšlení?
Autor působí jako senior konzultant pro technologie DWH a ETL ve společnosti Adastra.


![]() ![]() | ||||||
Po | Út | St | Čt | Pá | So | Ne |
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 1 | 2 | 3 | 4 |
5 | 6 | 7 | 8 | 9 | 10 | 11 |
Formulář pro přidání akce
15.5. | Konference SCADA Security |
22.5. | Akce pro automobilové dodavatele "3DEXPERIENCE... |
12.6. | Konference ABIA CZ 2025: setkání zákazníků a partnerů... |
29.9. | The Massive IoT Conference |