facebook LinkedIN LinkedIN - follow
IT SYSTEMS 11/2015 , AI a Business Intelligence

Big Data aneb Když běžné databázi dochází dech



ProfinitBig Data je pojem, který dnes uslyšíte nejen v diskuzích techniků, ale především od lidí z byznysu a snad i politiků. Nejde totiž jen o technologie pro zpracování dat, ale o celkový trend, jak vytěžit hodnotné informace z dostupných vlastních i veřejných dat co nejrychleji. Tento trend přináší nové byznysové scénáře využití dat. Nové technologie umožňují zpracovat větší objemy dat způsoby, které v minulém desetiletí nebyly standardně dostupné.


Současně se objevují i varování a pochybnosti, zda nás technologie, které umožňují lépe poznat lidi a jejich chování, neposouvají k naplnění vize velkého bratra, který o nás ví až příliš mnoho.

V následujícím článku se ale nebudeme zabývat touto spíše filozofickou otázkou. Podíváme se, kde vidíme přidanou hodnotu a předpoklady pro úspěšné nasazení Big Data platforem u českých podniků.

Co znamená pojem Big Data?

Termín Big Data není prostým vyjádřením zpracování většího objemu dat, ale důležité jsou i jejich další charakteristiky. V literatuře je pro popis charakteru velkých dat používán pojem 3V z počátečních písmen anglických slov Volume, Velocity a Variety. Někdy je přidáváno i čtvrté V jako označení pro Veracity, tedy věrohodnost.

Big Data tedy charakterizuje:

  • Volume (objem) – Moderní technologie jsou schopny analyzovat exponenciálně rostoucí objem dat.
  • Velocity (rychlost) – Důležitá je rychlost zpracování dat, aby informace z nich získané mohly být využity bezprostředně. Objevují se také úlohy vyžadující okamžité zpracování velkého objemu průběžně vznikajících dat.
  • Variety (různorodost, variabilnost) – Pro Big Data je typické, že kromě obvyklých strukturovaných dat dochází ke zpracování nestrukturovaných textů, ale i různých typů multimediálních dat.
  • Veracity (věrohodnost) – Pro některé scénáře je charakteristická také nejistá věrohodnost dat v důsledku jejich nekonzistence, neúplnosti, nejasnosti a podobně. Vhodným příkladem mohou být údaje čerpané z komunikace na sociálních sítích.

Využití Big Dat

Podívejme se na Big Data nejprve z pohledu jejich využití. Můžeme se dočíst o spoustě známých scénářů, ať už jak internetoví giganti zpracovávají obrovské množství dat (jak Google a Facebook denně vytvoří petabyty dat, které okamžitě zpracovávají pro jejich zhodnocení), nebo kolik dat mají meteorologické firmy, či co všechno ukládají telekomunikační operátoři. Žijeme ale v Česku a většina firem se datově potkává s úplně jinými (menšími) objemy dat. Potkáme tedy Big Data i v českých podnicích? Myslíme si, že ano, i když slovo Big má u našich podniků jinou číselnou hodnotu než u globálních korporací.

Kolik je Big?

V souvislosti s pojmem Big Data se ve světě totiž opravdu hovoří o minimálně petabytech. Myslíme si ale, že v malých poměrech naší republiky se nicméně o velkých datech můžeme začít bavit už i od jednotek TB, tedy od terabytů. Tyto objemy většinou lze počítat dobře dimenzovanými RDBMS, ale nasazením Big Data nic nezkazíme. Jsme tím navíc nachystáni na budoucnost, navíc dost pokročilých algoritmů vyžaduje velké množství odkládacích prostor pro mezivýpočty.

Je však nutné si uvědomit, že ne každé zpracování dat je Big Data problém, jak se může z různých situací zdát. Spousta podniků za Big Data iniciativu schovává svoji neschopnost zpracovat ,,small data", tj. zpracování dat, na které stačí lepší notebook. Nicméně i české podniky mohou díky dostupnosti nových Big Data technologií vytěžit svoje data spolu s veřejně dostupnými datovými zdroji tak, že získají novou hodnotu pro své podnikání. Spousta podniků totiž pracuje s obrovským množstvím dokumentů, disponují internetovými portály, které navštěvují statisíce uživatelů, či provozují stroje a technologie generující množství stavových dat. Je lákavé tato data bez omezení dlouhodobě skladovat a provádět nad nimi vysoce pokročilé data-miningové metody. Je jen na invenci podniků, jak jsou schopni přemýšlet o svém byznysu, přičemž se již nemusí omezovat tím, co jim datové technologie umožňují.

Technologie

Po technologické stránce je s pojmem Big Dat spojeno mnoho technologií, které se za posledních deset let objevily na výsluní a často z něj opět sešly. Ještě před dvěma lety bychom všichni vsadili na to, že nás zachrání noSQL databáze. Dnes je již téměř jisté, že své místo v IT světě datových platforem získal na další dekádu Hadoop, ale jestli tomu tak opravdu bude i za pět let, můžeme jen hádat.

Hadoop je kompletní open-source ekosystém pro zachycení, uložení, zpracování a publikaci dat nejrůznějších formátů využívající cluster komoditních serverů. Schopnost Hadoopu ukládat a analyzovat velká data paralelně na distribuované serverové architektuře přináší vysokou výkonnost, přičemž při použití běžného hardware a open source software přináší cenu za terabyte až 50krát nižší, než typické instance podnikových datových skladů a to je jeden z pádných argumentů jeho zavádění.

Potřebují uživatelé SQL?

Tím, že byl Hadoop na počátku určen hlavně pro speciální použití, kdy se hledělo na maximální výkon, neřešil se příliš způsob přístupu k datům. Operace šlo provádět přes MapReduce, což pro lidi, kteří se systémem denně pracovali, nebyl problém. To se ale nedalo říct o zbytku populace. Dokonce i v Google přišli na to, že přístup k datům přes JAVA programy není ideální a vznikl tak Hive. Ten má za úkol zprostředkovat přístup k datům pomocí srozumitelného a dnes zcela běžného jazyka SQL. Není to samozřejmě tak jednoduché, protože jde o určitý dialekt a navíc odezva není nejrychlejší. Je znát, že na adhoc dotazy zadávané uživateli s požadavkem okamžité odezvy nebyl Hadoop navržen.

V oblasti Big Dat však již dnes existuje velká konkurence a mnoho výrobců už zjistilo, že bez fungující SQL konzole je Hadoop neprodejný. Vzniklo tak několik dalších modulů, které umožňují dotazování více či méně nativním SQL. Mezi nejznámější patří už zmíněné Hive a dále např. Impala, IBM BigSQL, Presto, nebo projekty Drill a Phoenix od Apache. V lítém boji mezi výrobci vzniklo několik benchmarků a porovnání, je ale těžké určit, jaký z SQL modulů je ten nejlepší. Mnohdy se totiž specializují jen na určitý typ dotazů – Apache Phoenix například pracuje pouze nad databází HBASE. Často je zde ale i pokus o ujednocení dotazování přes federační vrstvu, jak je tomu v případě IBM BigSQL, Oracle Big Data SQL, nebo Presta.

Při dostatečné kompatibilitě je pak možné snadno a rychle migrovat data do nového a výkonnějšího prostředí a ušetřit tak nemalé prostředky, které si dnešní datová úložiště žádají. Uživatelé nemusí nic poznat, protože se tvar dotazů nemění, mění se jen adresa serveru, na který požadavky posílají. Poznat mohou ale zvýšený výkon při pokládání náročnějších dotazů, to samozřejmě v případě, že je cluster dostatečně dimenzovaný.

Dalším zajímavým příkladem využití technologií pro Big Data je archivace dat. Dnes se stále u mnoha zákazníků provádí kopírováním na datové pásky. Nikdo nikdy většinou stav médií nezná, natož aby se pravidelně zálohy testovaly. Máte-li Hadoop, můžete všechna data nechat ležet ve vaší datové „bažině“ a po letech se k nim vrátit. Pokud si napíšete vhodný MapReduce job, můžete tato archivní data navíc neustále vytěžovat.

Určitě je také vhodné zmínit koncept „Za rok, za dva, nebo za tři…“ Znáte písničku od p. Suchého, víte, že si její hrdina poctivě vše ukládá do krabic. Co kdyby se mu to časem hodilo? Podobně můžeme přistoupit i ke konceptu Big Dat. Můžeme tam uložit data, moc to nestojí, tak tam uložíme vše, a když za rok dostaneme skvělý nápad, co v datech hledat a jak to využít, jen napíšeme algoritmus. Pokud bychom ale měli data na páskách, nebo nedej bože data vůbec nesbírali, jsme v koncích. Lze samozřejmě namítnout, že píseň končí totálním zavalením sběratele, ale pokud při ukládání dodržujeme principy data governance a data jsou doplněna o metadata, pak nám toto nehrozí.

Explorační platforma vs. produkční prostředí

Datoví vědci (neboli data scientisté) rádi používají pro označení svého pískoviště pojem explorační platforma. Co to v praxi znamená? Často absenci bezpečnostních nařízení a předpisů. Loginy se sdílí, všichni vidí všechno a to je u mnohdy citlivých dat docela problém. V začátcích Hadoopu to žádný problém nebyl, protože v honbě za vyšším výkonem se na zajištění bezpečnosti rezignovalo. Ta vznikala až dodatečně a dnes je naštěstí na docela slušné úrovni, hlavně díky modulům Knox, Ranger, Atlas. Pokud uživatelé chtějí, dokáží vhodným nakonfigurováním těchto modulů zajistit datům v Hadoopu docela slušnou bezpečnost. HDFS jako takový navíc podporuje transparentní šifrování dat, ale na oplátku vám to samozřejmě vezme trochu výkonu.

Produkční nasazení ovšem standardně vyžaduje mnohem více – disaster recovery plány včetně přechodů do záložních lokalit, podrobné manuály pro operátory provozu, podrobné changelogy mezi jednotlivými releasy, rozumně nastavená SLA, možnost podrobného logování při změnách prováděných administrátory a mnoho dalších. Některé věci už komerční distribuce Hadoopu zvládly, některé zatím nikoliv. Vývoj ale pokračuje velice rychle a bezpečnost je jednou z oblastí, kde ke změnám dochází.

Dalším logickým návazným krokem po nasazení Big Data je Big Analytics, tedy snaha vytěžit ze sesbíraných informací co nejvíc. To je současně další velkou výzvou pro byznysové uživatele. Získáme nové prediktory pro vaše modely, dostanete lepší clustrování klientů. Budeme hledat klienty na odchodu a také ty, kteří by si u vás třeba koupili nějakou další službu. Díky současné ceně Big Data platforem mnohdy stačí zlepšení o málo procent a celé řešení je zaplacené.

Jak začít?

Myslíte-li si, že jsou vaše data dostatečně Big, máte problémy s jejich zpracováním, máte nápady na vytěžení zajímavých informací, na což ale výkon vašeho stávajícího IT prostředí nestačí? Pak je správný čas se začít o tuto oblast zajímat. Určitě požadujte SQL kompatibilitu, tím si ušetříte spoustu starostí a rozmyslete si, co si od Big Data platformy slibujete. Pokud si myslíte, že ve své společnosti narazíte na odpor proti inovacím, najděte si externí pomoc. Konkurence v Big Data oblasti je tvrdá a mnoho dodavatelů vám nabídne zapůjčení platformy pro otestování, prezentace, školení. Přemýšlejte o provedení Big Data assesmentu, na jehož konci se ukáže, jestli je pro vás tato cesta vhodná a jak velký je právě váš byznys case. Následně vás čekají už jen drobnosti, jako nalezení peněžních prostředků, výběr platformy, výběr parametrů clusteru, datová integrace a můžete začít naplno využívat sílu skvělé technologie Big Data.

Marek Sušický

Autor článku působí jako Senior Fraud Advisor ve společnosti Profinit.


Petr Mikeška

Spoluautor zastává ve společnosti Profinit pozici Head of Information Management.
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.

Inzerce

Modernizace IS je příležitost přehodnotit způsob práce

IT Systems 4/2025V aktuálním vydání IT Systems bych chtěl upozornit především na přílohu věnovanou kybernetické bezpečnosti. Jde o problematiku, které se věnujeme prakticky v každém vydání. Neustále se totiž vyvíjí a rozšiřuje. Tematická příloha Cyber Security je příležitostí podívat se podrobněji, jakým kybernetickým hrozbám dnes musíme čelit a jak se před nimi můžeme chránit. Kromě kybernetické bezpečnosti jsme se zaměřili také na digitalizaci průmyslu.