- Přehledy IS
- APS (20)
- BPM - procesní řízení (22)
- Cloud computing (IaaS) (10)
- Cloud computing (SaaS) (33)
- CRM (51)
- DMS/ECM - správa dokumentů (20)
- EAM (17)
- Ekonomické systémy (68)
- ERP (77)
- HRM (27)
- ITSM (6)
- MES (32)
- Řízení výroby (36)
- WMS (29)
- Dodavatelé IT slueb a řeení
- Datová centra (25)
- Dodavatelé CAD/CAM/PLM/BIM... (39)
- Dodavatelé CRM (33)
- Dodavatelé DW-BI (50)
- Dodavatelé ERP (71)
- Informační bezpečnost (50)
- IT řeení pro logistiku (45)
- IT řeení pro stavebnictví (26)
- Řeení pro veřejný a státní sektor (27)
ERP systémy
CRM systémy
Plánování a řízení výroby
AI a Business Intelligence
DMS/ECM - Správa dokumentů
HRM/HCM - Řízení lidských zdrojů
EAM/CMMS - Správa majetku a údrby
Účetní a ekonomické systémy
ITSM (ITIL) - Řízení IT
Cloud a virtualizace IT
IT Security
Logistika, řízení skladů, WMS
IT právo
GIS - geografické informační systémy
Projektové řízení
Trendy ICT
E-commerce B2B/B2C
CAD/CAM/CAE/PLM/3D tisk![]() | |
| Přihlaste se k odběru newsletteru SystemNEWS, který kadý týden přináí výběr článků z oblasti podnikové informatiky | |
![]() | |
Big data
Nové způsoby zpracování a analýzy velkých objemů dat
Big data je fráze, která se poprvé objevila v oblasti high performance computingu (HPC). Stále častěji se tento pojem začal objevovat v prezentacích HPC dodavatelů v souvislosti s vizualizačními platformami, cloudovými řeeními a úloiti. Co přesně vak tato fráze znamená?

Pokud si člověk přečte deset prezentací dodavatelů technologií, přijde na zhruba patnáct různých definic. Kadá z nich má podle očekávání tendenci podporovat produkty či sluby toho daného dodavatele, nicméně větina vyhovuje definici, se kterou přila poradenská firma Gartner: big data je termín aplikovaný na soubory dat, jejich velikost je mimo schopnosti zachycovat, spravovat a zpracovávat data běně pouívanými softwarovými nástroji v rozumném čase.
Pojem velikost dat je chápán nejen z hlediska objemu dat měřeného giga-, tera- či petabyty, ale i z hlediska rychlosti jejich tvorby a přenosu a z hlediska různorodosti jejich typů. Jako příklad je často citováno mnoství údajů o počasí, které získává kadý den Národní úřad pro oceán a atmosféru (NOAA) nebo NASA. I komerční sektor má své premianty, jako například energetické, telekomunikační nebo farmaceutické společnosti shromaďující obrovská mnoství dat. Velké organizace čelí stálé potřebě udrovat rozsáhlé soubory strukturovaných i nestrukturovaných dat. V souladu s vládními nařízeními a s postupnou digitalizací narůstá objem archivovaných elektronických dokumentů, e-mailových zpráv a dalích záznamů o elektronické komunikaci.
Klasický způsob vyuití dat z datového skladu
A do nedávné doby bylo zpracování dat pro analytické účely poměrně statickou úlohou. Konkrétně podniky produkují zejména strukturovaná data ze stabilních datových modelů prostřednictvím podnikových aplikací, jako je CRM, ERP a finanční aplikace. Pomocí ETL nástrojů se data z těchto systémů přenáí do pracovní oblasti, kde se kontroluje kvalita údajů a provádí se jejich normalizace, finálně se pak ukládají do datového skladu. Tento proces obvykle běí v pravidelném cyklu zpravidla na denní nebo týdenní bázi. Správci datového skladu pak vytvářejí reporty, které běí nad daty uloenými ve skladu. Datoví analytici pouívají analytické nástroje pro provádění sloitých výpočtů nad daty ze skladu, anebo z důvodu omezení velikosti častěji nad vzorky dat z data martu. Běným uivatelům je větinou povoleno pouití BI nástrojů pro základní vizualizaci dat a omezené analytické výpočty. Objemy dat z tradičních datových skladů zřídka překračují několik terabytů.
Změna podstaty big data
Nástup webu, mobilních zařízení a dalích technologií zapříčinil zásadní změnu charakteru dat a způsobu jejich vyuití. Ji nejsou centralizovaná, vysoce strukturovaná a snadno zvládnutelná, ale více ne dříve jsou volně strukturovaná (pokud mají vůbec nějakou strukturu), vysoce distribuovaná a mají vzrůstající objem. Často se v této souvislosti hovoří o trojrozměrnosti velikosti a růstu dat (zkráceně také jako 3V):
- objem (volume) mnoství dat vznikajících v rámci provozu firem roste exponenciálně kadý rok,
- typ (variety) různorodost typů dat vzrůstá, například nestrukturované textové soubory, semi-strukturovaná data (XML), data o geografické poloze, data z logů,
- rychlost (velocity) rychlost s jakou data vznikají a potřeba jejich analýzy v reálném čase vzrůstá díky pokračující digitalizaci větiny transakcí, mobilním zařízením a vzrůstajícímu počtu internetových uivatelů.
Big data mají odliné vlastnosti, které je odliují od tradičních firemních dat. Tradiční datové sklady a nástroje pro správu dat nejsou připraveny na zpracování a analýzy velkých objemů dat ve velmi krátkém čase (někdy real-time) nebo nákladově efektivním způsobem. Proto je třeba hledat nové způsoby zpracování a analýzy velkých objemů dat.
Nové přístupy k analýze a zpracování big data
Jedním z takovýchto nových nástrojů je Hadoop. Hadoop je open source framework pro zpracování, ukládání a analýzu velkého mnoství distribuovaných, nestrukturovaných dat. Původně byl vytvořen ve společnosti Yahoo!, jako inspirace byla pouita MapReduce, uivatelsky definovaná funkce vyvinutá společností Google pro indexování webu. Hadoop je stavěn pro zvládání petabytů a exabytů dat distribuovaných přes více uzlů současně.
MapReduce je výpočetní vrstva v rámci Hadoopu. Úlohy MapReduce přistupují k datům, která jsou distribuována na webu nebo v datových centrech, rozdělují je do více replikovaných dílů a jejich zpracování polou na jednotlivé uzly. Dotazy a dalí zpracování pak probíhá v kadém uzlu paralelně. Výsledky jsou agregovány a ukládány do úloné vrstvy, jako například Hadoop Distributed File System (HDFS). Odtud jsou data načtena do jednoho z několika analytických prostředí pro analýzu. Ekosystém Hadoop se dále skládá z dalích vzájemně se doplňujících projektů. Mezi ně, kromě výe uvedených HDFS a MapReduce, patří NoSQL datová úloitě, jako Cassandra nebo HBase.
Hlavní výhodou Hadoopu je, e umoňuje analyzovat úplné datové soubory údajů, včetně nestrukturovaných a částečně strukturovaných dat, a to z hlediska nákladů i času efektivním způsobem. Mezi nevýhody Hadoopu patří částečná nezralost a hektický vývoj. Kromě toho, zavádění a řízení Hadoop clusterů a provádění pokročilé analýzy na velké objemy dat vyaduje značné odborné znalosti. Pro firmy je takový model vesměs nepřijatelný, a proto v rámci ekosystému vznikla řada firem, které staví komerční řeení na bázi Hadoopu tak, aby se nasazení a správa technologie stala praktickou realitou tradičního enterprise odvětví.
Trh řeení pro big data
Řeit problémy s big data znamená zasahovat do mnoha komponent IT architektury od hardwaru po optimalizaci vzorkování dat. Proto i trh s řeeními orientovanými na big data je velmi pestrý. Jednoduchý přehled obsahuje tabulka.
Hardware
V rámci big data je velké zaměření na hardwarové konsolidace. Větina velkých dodavatelů nabízí integrovaná řeení včetně specializovaného hardwaru s důrazem na výkonnost při sníení celkových nákladů na správu a provoz. Na druhou stranu je zde i druhá skupina dodavatelů, kteří upřednostňují hardwarovou nezávislost, nebo přímo podporují běh svých systémů na komoditním hardwaru.
Big data distribuce
Mnoství dodavatelů řeení specializovaných na big data se rychle zvětuje. Řada z dodavatelů vyvinula své vlastní Hadoop distribuce s různým stupněm úprav. Patří mezi ně jak řada firem vzniklých právě na základě potřeby řeit velká data, tak dnes i větina velkých hráčů na IT trhu.
Data management
V rámci data managementu hrají prim předevím noSQL databáze jako prostředek pro obsluhu poadavků na čtení a zápis velkých objemů dat. Z pohledu integrace je zde patrná snaha o napojení big data technologií do stávajících nástrojů a zároveň jejich těsnou integraci se stávajícími technologiemi, předevím RDBMS.
Analýza a vizualizace
Obecně platí, e čím větí vzorek dat, tím přesnějí výsledek analýzy. To samozřejmě zvyuje tlak na zvětování objemu analyzovaných dat. Dodavatelé analytických nástrojů se snaí vylepit své produkty, aby velké objemy dat zvládly a ulehčily uivatelům od vymýlení a tvorby různých náhradních řeení. Trendem je vyuívat vlastní, vestavěné databáze jako součást analytických nástrojů, maximum dat nahrávat do operační paměti a pracovat s nimi tzv. in-memory, vyuívat nové principy uloení dat v databázi (sloupcově orientované databáze) či vyuívat masivně paralelní systémy. Velký rozvoj se očekává v následujících letech v oblasti zobrazování výsledků analýz (vizualizace dat). Bude se zvyovat mnoství zobrazitelných bodů (hodnot), očekávat lze vylepování animačních schopností analytických nástrojů.
Big data znamenají budoucí příleitost
Více ne osmdesát procent vech dat v podniku má nestrukturovanou formu. Nejtěí je nalézt v nich informace podstatné pro daný byznys. Informační pracovníci tráví dnes téměř čtvrtinu svého času právě vyhledáváním informací, přičem doba získání těchto informací můe mít vliv nejen na vnitřní produktivitu firmy, ale také například na spokojenost a loajalitu zákazníků. Big data přináejí nový pohled i na samotné projekty datových skladů. Tradiční projekty budování datových skladů trvají i roky, od formulace zadání a po provedení samotných změn na základě výsledků analýz mnohdy uplyne dlouhá doba, co můe způsobit značné finanční ztráty. Při pouití big data prostředků lze tyto projekty zásadně urychlit a současně dospět k přesnějím výsledkům. Rychlost dosaení přínosů (time-to-value) bude klíčovým ukazatelem úspěnosti těchto projektů. To bude vyadovat změnu i na straně dodavatelů, kteří budou akceptovat krátké, intenzivní projekty.
Ondřej Dolák
Autor působí jako senior consultant společnosti Sophia Solutions.




















