facebook LinkedIN LinkedIN - follow
IT SYSTEMS 3/2015 , AI a Business Intelligence

Nové technologie BI a jejich uplatnění v praxi



SASAplikace nových technologií v businessu má pak jediný cíl – zlepšit výkonnost firmy. Zvyšování výkonnosti společnosti lze dosáhnout dvěma hlavními směry – zvýšením obratu nebo snížením nákladů. Záleží poté na použití dané technologie, zda bude šetřit peníze nebo firmě pomůže více peněz vydělat. U některých technologií může být vyčíslení přínosu jednodušší, jiné mohou být spíše strategického rázu.


Pro příklad si můžeme vzít reporting, jehož nasazení na první pohled pravděpodobně žádné peníze nevydělá. Automatizovaný reporting sice může ušetřit práci a tím i peníze, takto ušetřená suma ale nejspíše nebude nijak dramatická. Jeho význam je jiný – slouží jako podklad pro strategické či operativní rozhodování. Platí zde jednoduchá poučka: „Pokud se chci zlepšit, musím nejdříve vědět, jak na tom jsem.“ Chytrá rozhodnutí založená na kvalitních datech jsou tím, co by mělo do firem peníze přinést.

Můžeme konstatovat, že reporting je v dnešní době určitým standardem v oblasti velkých a středních firem a na trhu vidíme snahu získat z dat ještě více informací. Firmy vlastní různé informační systémy a datové sklady a s rozvojem internetu, mobilních aplikací či sociálních sítí se dostávají k dalším zdrojům dat. Je pak otázkou, zda dokážeme dostupné datové zdroje efektivně využít ve prospěch firmy. Pro zpracování tak velkého množství dat může vedle datového skladu sloužit technologie jako Hadoop, která využívá vzájemně propojených „levných“ serverů k distribuci úložného prostoru a výpočetního výkonu.

Využití Hadoopu jako soustavy spojených serverů – clusteru – můžeme vnímat ve třech rovinách, jež můžeme rozdělit na využití:

  • datového úložiště
  • výpočetního výkonu procesorů
  • rychlé operační paměti

Hadoop můžeme tedy využít jako úložiště všech dat, které v rámci firmy vznikají, ať už víme, zda data v tuto chvíli využijeme nebo ne. Pro příklad můžeme uvést logy, které se pravidelně mažou, aby nezahlcovaly disky serverů. Zároveň by bylo finančně náročné taková data ukládat v rámci datového skladu. Komoditní hardware, na kterém Hadoop běží, je mnohonásobně levnější než výkonné stroje pod datovým skladem. Hadoop ukládá data do tzv. HDFS, což je distribuovaný souborový systém, který se stará o rozdělení uložených souborů mezi servery a redundanci a tím pádem je odolný vůči výpadku serveru. Hadoop pouze jako platforma ukládající velké množství dat nemusí znamenat dostatečný přínos pro firmu a je tak třeba hledat sofistikovanější využití Hadoop clusteru. Právě využití výpočetního výkonu procesorů a rychlé operační paměti pro analytické úlohy může přinést nové možnosti ke zvýšení výkonnosti firmy. Analytické úlohy, které běží v Hadoopu, se nemusí v zásadě lišit od úloh, které dnes firmy zpracovávají v datovém skladu, či od menších datových tabulek. Ty by pouze nad „velkými daty“ běžely příliš dlouho. Proto není možné v řadě případů použít staré algoritmy a postupy, na které jsme zvyklí. Analytické algoritmy, které využívají technologií v platformě Hadoop, musí být přizpůsobeny na masivní paralelismus, aby dokázaly využít celý cluster. Přístup pro řešení problému paralelizace úloh je v platformě Hadoop řešen frameworkem MapReduce, jenž pracuje systémem „rozděl a panuj“. Servery v clusteru jsou rozděleny na tzv. NameNodes a DataNodes, kde:

  • NameNode je řídící uzel, který rozděluje práci mezi všechny DataNodes,
  • DataNode je datový/pracující uzel, který data ukládá, provádí nad nimi výpočty atd.

V praxi to funguje tak, že jsou data redundantně rozdělena na více DataNodes a úloha je řešena separátně na více uzlech. Uzly pak vrátí výsledek, jenž může být duplicitní s výsledkem jiného uzlu – cluster je tak odolný vůči výpadkům. Nakonec se výsledky v NameNode spojí a předají na výstup. MapReduce programy se píší v Javě, Pythonu popř. dalších jazycích, což může být pro mnoho analytiků komplikované.

Proto jsou nad Hadoopem vyvinuty další nadstavby – platformy, které umožňují analytikům pracovat s velkými daty snadněji, popř. ve formě, na kterou jsou zvyklí. Příkladem může být Pig (jazyk PigLatin) a Hive (jazyk HiveQL).

  • Platforma Pig používá programovací jazyk PigLatin, který je po spuštění převeden do sekvence MapReduce úloh. PigLatin usnadňuje transformaci strukturovaných a nestrukturovaných dat uložených v HDFS.
  • Na druhou stranu Hive je platforma datového skladu a obsahuje jazyk HiveSQL. Ten je podobný jazyku SQL, na který je mnoho analytiků zvyklých. Pomocí HiveQL je tedy možné získávat informace.

Ideálním stavem je, když analytické algoritmy dokáží využít zároveň rychlé operační paměti clusteru – tzv. in-memory analytika, kde jsou data zpracovávána mnohonásobně rychleji, než kdyby byla uložena na disku. In-memory přináší výkonnou analytiku, ve které jsou analytické modely a úlohy vyhodnocovány v reálném čase a ve které můžeme využít jak velkého množství dat, tak i rychlosti, kterou velká data vznikají.

Pro in-memory analytiku můžeme nalézt velké množství případů použití – pro příklad můžeme uvést zachytávání velkého množství transakcí, kde chceme hned na vstupu transakce analyzovat. Analýza bankovních transakcí nám pak pomůže odhalit, zda se jedná o podvod (fraud) již ve chvíli, kdy transakce probíhají. V oblasti marketingu pak můžeme využít in-memory analytiku pro optimalizaci nabídek zákazníkům a jejich zasílání v okamžiku, kdy je zákazník na firemním webu či vstoupil do prodejny.

Dalším použitím in-memory zpracování dat je oblast explorační analýzy a vizualizace dat, kdy se snažíme v datech nalézt zajímavé informace a souvislosti. Tím, že nám in-memory technologie vrací výsledky v řádech sekund, je možné s daty pracovat ve více možných směrech a testovat na datech různé hypotézy. Dotazy probíhající nad daty okamžitě vracejí výsledky a se správnou technikou vizualizace je tak možné nalézt odpovědi na všechny naše otázky ve velmi krátkém čase. Spojením in-memory analýzy a přívětivého uživatelského rozhraní je možné posunout analytiku až ke koncovému spotřebiteli analýzy. Dokonce můžeme mluvit o business analytice pro business uživatele, kde jsou uživatelé sami schopni aplikovat jednodušší statistické algoritmy nad daty, tzv. self-service, a nemusí tolik zatěžovat specializované pracovníky.

Shrnutí

Analytika nad Hadoopem může:

  • výrazně ulehčit přetíženým datovým skladům s analytickými dotazy
  • uspořit místo v datovém skladu (cena uložení 1TB dat v datovém skladu je mnohonásobně vyšší oproti uložení v Hadoopu)
  • využít pokročilých analytických algoritmů nad různými zdroji dat
  • ukládat a zpracovávat data v reálném čase

Platforma Hadoop a celý ekosystém produktů, které kolem ní vznikají, vyžaduje přísun nových dovedností do analytických týmů. Firmy postupně začínají s Hadoopem pracovat, a proto bude poptávka po lidech, kteří ovládají jazyky PigLatin neboHiveQL, i nadále stoupat. Pro lidi je to tedy ideální příležitost k dalšímu vzdělávání a zvýšení své ceny na trhu. Na druhou stranu dodavatelé softwaru investují nemalé peníze do vývoje svých nástrojů tak, aby i jejich nástroje byly schopny s Hadoopem pracovat a využívat jeho sílu – to vše v prostředí, na které jsou již uživatelé zvyklí.

Velmi zajímavé pak bude sledovat, jak kreativní budou firmy s aplikací nástrojů a technik, které kolem Hadoopu vznikají. Ať už to budou nástroje open-source či nástroje vyvinuté velkými či malými hráči na trhu. Nakonec pouze využití Hadoopu pro řešení business problému je to, co firmy zajímá.

Jakub Chovanec Jakub Chovanec
Autor článku je konzultantem ve společnosti SAS.
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.

Inzerce

Konec papírování, digitalizujte a usnadněte si práci!

IT Systems 3/2024V aktuálním vydání IT Systems jsme se zaměřili na vývoj digitalizace ve světě peněz, tedy v oblasti finančnictví a pojišťovnictví. Dozvíte se například, proč je aktuální směrnice PSD2 v inovaci online bankovnictví krokem vedle a jak by její nedostatky měla napravit připravovaná PSD3. Hodně prostoru věnujeme také digitalizaci státní správy a veřejného sektoru, která nabírá obrátky.