facebook LinkedIN LinkedIN - follow
IT SYSTEMS 3/2017 , Banky a finanční organizace

Big Data v bankách a různé přístupy k nim

ing. Libor Šlik


AcreaAsi každý si všiml, že objem dat generovaných a ukládaných v různých odvětvích lidské činnosti se řádově zvyšuje. Kde před lety stačily megabyty, máme nyní problémy s gigabyty, o dalších řádech, tera/peta ani nemluvě. Big Data je proto stále frekventovanější termín. Problém s jeho definicí je ten, že pro každou organizaci znamená něco jiného. Obecně lze říci, že pojmem Big Data se označují soubory dat, které nelze spravovat a zpracovat běžnými softwarovými nástroji v rozumném čase. Nemusí však jít pouze o velikost dat, ale často jde o jejich složitost, (ne)strukturu a umístění. Ač bylo bankovní prostředí vždy spíše konzervativní, s nástupem nových komunikačních technologií a sociálních sítí se do bankovního datového portfolia dostal i segment nestrukturovaných dat. Dat je stále více a standardní přístupy pro jejich správu, konsolidaci a analýzu začínají být nedostatečné.


Nástup nových technologií označovaných jako Big Data je tedy vývojovou nutností. V datové otázce stojíme před problémem „kam s tím?“, ale protože už to máme, řešíme i otázku „co s tím budeme dělat?“. Pokud jsme schopni si na obě otázky odpovědět, nutně vyvstane třetí otázka, „jak to uděláme?“. Možné odpovědi na tyto tři otázky a přístupy k této problematice najdete v tomto článku.

Různé technologie a přístupy

V 60. letech 20. stol.tí začal být objem dat uložených typicky na počítačích označovaných jako „mainframe“ velkým problémem. Výpočty v tomto prostředí a vůbec jeho správa byly velice drahé a náročné. Od 70. let, kdy byl poprvé představen koncept relační databáze a strukturovaného dotazovacího jazyka SQL, se v bankovním sektoru používají hlavně relační databázové nástroje. Díky nim se čas a peníze potřebné na zpracování dat začaly výrazně snižovat. I přes nástup nových, často open source technologií, jsou relační databáze pořád nejvhodnějším nástrojem pro finanční záznamy a uložení dat o zákaznících. Všechny rutinní finanční operace, jako zadání plateb, platby platební kartou či online nakupování, jsou striktně strukturované, a tedy vhodné pro zpracování v relačních databázích.

V poslední době se do popředí dostávají technologie jako noSQL, Spark, MapReduce, Hadoop. Tyto technologie představují alternativu tradičním relačním databázím. Není náhodou, že je používají světoví internetoví giganti jako Google, Facebook, Amazon. Důvodem je charakter dat, se kterými tyto společnosti pracují, a způsob přístupu k těmto datům. Zde už totiž tradiční relační databáze narážejí na své limity, protože data jsou často distribuována na velkém počtu zařízení, nemají žádné pevné schéma a strukturu. Klíčovou úlohou je uživatelský přístup a textové vyhledávání založené na klíčových slovech. Pro tyto případy jsou technologie Big Data vhodnější než klasické relační nástroje. Na druhou stranu tyto technologie nejsou moc efektivní pro zpracování transakcí.

V rámci bankovního prostředí je proto možné využít oba tyto přístupy, ať už je budeme označovat jako „Big“, či nikoli. Oba mají své zřejmé výhody i nevýhody, a je tedy třeba je využít správně a v situacích pro ně vhodných. Například relační databáze pro zpracování transakčních dat a Hadoop, či podobnou technologii, jako datový sklad pro historická data a nestrukturovaná data z jiných zdrojů než bankovních transakcí. Po vyřešení provozních záležitostí se můžeme soustředit na optimalizaci datové základny pro analýzy, v našem případě analýzy strukturovaných dat.

Prediktivní analýzy či reportování byly v rámci relačního přístupu samozřejmě možné vždy. Zpracování však stojí čas a peníze. S vývojem hardwaru a softwaru se obojí dařilo trvale snižovat až do doby, kdy trvalý nárůst objemu dat zase začal jejich zpracování prodražovat. V současnosti jsme se opět dostali do situace, kdy hledáme řešení, které by zpracování relačních strukturovaných dat milionů zákazníků či miliard transakcí opět zlevnilo.

Trochu jiný přístup k analýze a data miningu

Ačkoli aktuálním trendem jsou decentralizované technologie využívající existujícího hardwaru, jako například Hadoop, jinou možnou cestou je opačný přístup. A sice využití specializovaného hardwaru a softwaru, specificky určeného pro analýzu obrovských objemů dat, soustředěného na jednom místě. Jako příklad takového řešení jsem vybral Netezzu. Dvoumetrový box, zaplněný různým počtem serverů a diskových polí. Oproti technologiím označovaným jako Big Data se liší tím, že všechen výpočetní výkon koncentruje do jednoho místa, nicméně data v rámci svého úložiště distribuuje na více míst a přistupuje k nim paralelně. I když Netezza používá relační přístup, pro zvýšení svého výkonu oproti klasickým relačním technologiím nic neindexuje. Tím odpadá nutnost obětovat čas a prostor na tvorbu a správu indexů, které jsou tradičním relačním nástrojem pro zrychlení zpracování dat. Místo toho, aby Netezza díky indexaci věděla, kde data jsou, používá systém datového mapování, aby naopak věděla, kde data nejsou, a minimalizovala tak časově nejnáročnější operace práce s disky.

Je nutno si uvědomit, že toto je analytické řešení. V žádném případě nenahrazuje systémy pro CRM či transakce. Data, která se mají analyzovat, je do něho nutno nahrát z jiných zdrojů. Na druhou stranu koncepce řešení je taková, že není třeba žádných speciálních konfigurací a dlouhé implementace. Stačí zapnout, nastavit přístup do podnikové sítě, uživatelské přístupy a nahrát data. Poté lze s daty pracovat jako s jakýmikoli jinými relačními daty a provádět nad nimi další analýzy či reportování pomocí nějakého dataminingového či reportovacího nástroje, který by dokázal plně využít „rychlostní“ potenciál takto uložených dat. Takových softwarových nástrojů je naštěstí celá řada. Software je schopen překládat vizuálně sestavené datové posloupnosti do jazyka používané datové platformy. Konkrétně tedy jazyka sql pro relační databáze a Spark pro Hadoop. Takto přeložené „dotazy“ pak deleguje ke zpracování přímo v datovém zdroji. Tím se maximalizuje rychlost jejich zpracování a minimalizují se nároky na přenos dat a výpočetní výkon.

Jak to bude dál

Všechny relační databáze, typicky soustředěné na jednom místě, hledají prostředky pro zvýšení výkonu. Může to být v náročném indexování, optimalizaci dotazů či v paralelním zpracování. Různý charakter práce/dat potřebuje různé přístupy. Trvalou snahou je maximalizace využití dostupných hardwarových prostředků a využití paralelního přístupu. A protože dat bude stále více, nebudou mít pevnou strukturu a budou decentralizovaně umístěné většinou tam, kde vzniknou, bude to posilovat platformu nástrojů pro Big Data. Díky své koncepci a open source pozadí budou při rozhodování o architektuře IT velice atraktivní. Jejich atraktivitu možná trochu sníží další náklady spojené s jejich implementací, konfigurací, provozem a optimalizací. Ohledně nějakého univerzálního řešení, které by bylo optimální pro často protichůdné obchodní požadavky, jsem však velice skeptický. Největší potenciál vidím ve vzájemné koexistenci klasických relačních nástrojů, nových Big Data technologií a specializovaných nástrojů pro analytiku a reportování.

Ing. Libor Šlik Ing. Libor Šlik
Autor článku je lektor, analytik a odborný konzultant ve společnosti ACREA CR. Specializuje se na řešení významných projektů pro velké společnosti v oblasti data miningu, sběru dat a jeho automatizace.
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.