facebook LinkedIN LinkedIN - follow
IT SYSTEMS 3/2014 , AI a Business Intelligence , Banky a finanční organizace

Správný čas na Hadoop

Z laboratoře do bankovního světa



AdastraHadoop se jako platforma pro velká data skloňuje v různých oblastech již několik posledních let. Diskuse se však časem posouvá od ryze akademických úvah směrem k řešení reálných business problémů. Technologické aspekty této platformy jsou dnes již dobře definované a stabilní. Komerční distribuce se rychle etablují v enterprise sféře. Na světlo světa proniká množství úspěšných užití napříč spektrem odvětví. Pojďme se proto podívat, jak Hadoop využít v reálném prostředí bank a finančních institucí a proč je právě teď ten správný čas začít.


Od roztroušených částí k distribucím

I přes řadu výhod nebyl Hadoop ještě donedávna technologií pro větší podniky. Hadoop totiž není jedinou technologií, ale ekosystémem drobných částí plnících různé účely. Bouřlivý vývoj v oblasti velkých dat znamená časté změny těchto částí a vyžaduje značné úsilí pro udržení jejich vzájemné kompatibility. Průlomem v možnostech reálného použití Hadoopu jsou bezesporu Hadoop distribuce, které zákazníka od integrace částí Hadoopu odstiňují a zastřešují vše v jeden kompaktní celek. Asi nejznámější zástupci Hadoop distribucí jsou Cloudera a Hortonwors. Tyto distribuce jsou si v zásadě podobné. Out of the box kromě základních pilířů Hadoopu HDFS a MapReduce obsahují množství dalších aplikací. Pro dotazování mají připraveny dávkové i analytické nástroje. Podporují integraci tokových dat i import dat z SQL databází. Součástí jsou také nástroje pro řízení a design workflow. Všechny komponenty, včetně jejich administrace, jsou dostupné přes jednotné GUI. Po zakoupení licencí distribuce slibují možnosti HA provozu, vyšší bezpečnost a provoz velkých clusterů. Distribuce je možné provozovat na vlastním hardwaru, ale k dispozici jsou i hotová appliance řešení, například Oracle pro Clouderu nebo Teradata pro HortonWorks. Bez nutnosti licencováni pro proof of concept (PoC) a s možností využití komoditního hardwaru je investice do pořízení Hadoop clusteru minimální.

Hadoop distributoři v současnosti ve snaze rozdělit tržní podíly poskytují velice příznivou licenční politiku založenou na ročním obnovování. Také implementátoři a systémový integrátoři jsou ochotni Hadoop řešení a PoC poskytovat za vstřícných podmínek s jasnou vizí velkého rozvoje těchto přístupů v budoucnosti. Tento stav je ideální pro zájemce z řad progresivních podniků usilujících o využití big data nástrojů ve svůj prospěch.

Poznávání zákazníka přes velká data

Velikou konkurenční výhodou a zároveň ideální úlohou pro Hadoop cluster je implementace 360 view of customer. Dnes běžně používané technologie neumožňují efektivně sledovat všechny prodejní a komunikační kanály. Pobočkové systémy jsou dozajista největším zdrojem prodejních a klientských dat, avšak při dnešní popularitě elektronických komunikačních a prodejních kanálů již zdaleka nejsou jediné. Značné množství cenných informací se skrývá v hlasových datech z call center, v datech ze sociálních sítí, v mailové komunikaci, v datech z bankomatů, v korespondenci s klientem, SMS zprávách, click-stream datech z webových stránek, geolocation datech z mobilních zařízení atd. Jde o data, která tradiční prostředky nesnadno zpracovávají, nebo astronomická cena zpracování převyšuje hodnotu vytěžených informací. Nejen v těchto případech je ekosystém Hadoopu ideální volbou, protože umožňuje tato data efektivně ukládat a zároveň analyzovat za zlomek ceny oproti konvenčním přístupům. Odměnou je schopnost lépe poznat zákazníka a detailněji sledovat prodejní kanály. Také portfolio produktů a služeb je pak možné lépe řídit a zvyšovat cross-sell i upsell. Analýza těchto dat dále umožňuje predikci chování zákazníka a řešení úloh typu next best offer, micro-targeting, retenci zákazníka a další. Jako příklad lze uvést situaci, kdy zákazník prostřednictvím sociálních sítí naznačuje, že plánuje koupi notebooku. Pokud banka tuto informaci zachytí a jedná se o oslovitelného klienta se známou mírou rizikovosti, může mu nabídnout například navýšení kreditního limitu, peněžní půjčku apod.

Ke zlepšení prozákaznického přístupu vede i další případ užití vhodný pro Hadoop – sentiment analýza, nebo také opinion mining. Podstatou je zjištění postojů, názorů a pocitů zákazníků, ale také široké veřejnosti ve vztahu k produktům a aktivitám společnosti. Zdrojem dat pro tyto analytické a dataminingové úlohy jsou především data ze sociálních sítí, blogů, webových stránek a hlasových dat. Aby bylo možné tato data analyzovat, jsou konvertory zpracována do textové podoby (např. text-to-speech, twitter-to-json ap.). Na jejich interpretaci je možno použít další moduly, jako jsou například rétorické moduly se schopností analyzovat tón hlasu zákazníka volajícího na call centrum a umožňující identifikaci typu reakce (spokojen/nespokojen) nebo určení konkrétního bodu rozhovoru, který vyvolal změnu nálady volajícího. Na rozdíl od převodníků hlasu do textu, které pro češtinu fungují velice uspokojivě, je u rétorických modulů řada důvodů k pochybnostem. Nicméně i bez těchto pokročilých nástrojů je možné sentiment analýzu v českém prostředí implementovat. Získané informace jsou zdrojem pro hodnocení dopadu kampaní, odhalení důvodů neočekávaně špatných či dobrých prodejů produktů a také pro cílení produktů na demografickou nebo věkovou skupinu a prodejní kanál. Benefitem je také možnost odhalení a včasné mitigace reputačního rizika.

I strukturovaná data mohou být velká

I když předešlé způsoby použití byli založeny na nových a nestrukturovaných datech, existuje řada způsobů využití i pro data strukturovaná. Od momentu, kdy se velikost dat pohybuje ve stovkách gigabajtů až v terabajtech, začíná být použití Hadoopu zajímavé. Například master data management je u bank a finančních institucí nutností. Masterování klientských a produktových dat je ale náročný proces, jak s ohledem na velikost dat, tak výpočetní výkon. Výbornou možností optimalizace celého procesu je využití Hadoop clusteru jako platformy. Nízké náklady za uložení dat řeší kapacitní omezení a téměř lineární škálovatelnost výkonu při přidání dalších serverů umožní potřebné zvýšení výpočetního výkonu a zkrácení celého procesu. Podobně jako MDM také data hub, ale i celý data staging obecně, vyžaduje velké množství strukturovaných dat na jednom místě a je vhodným příkladem pro použití platformy Hadoop. Zde je kromě ceny a kapacity úložiště zajímavým benefitem sandboxing, který je podporován nástroji standardně dodávanými v Hadoop distribucích.

Oblastí vhodnou pro Hadoop je oblast archivace a zálohování dat. K těmto účelům se standardně využívá diskových polí s levným diskovým prostorem či stále ještě magnetických pásek. Magnetické pásky poskytují nízkou cenu za uložení dat. Toto, v dnešní době již zastaralé médium, sebou nese řadu nevýhod. Data nejsou replikována a poškození úložného média je detekováno až při případné obnově dat. Navíc data uložená na páskách není možné efektivně číst a pro účely analýz jsou neviditelná. Disková pole sice umožňují archivovaná data relativně dobře číst a replikovat, avšak za násobně vyšší ceny než pásková úložiště. Hadoop cluster kombinuje pozitiva obou předchozích přístupů. Poskytuje možnost téměř neomezené archivace při několikanásobné replikaci dat (implicitně trojnásobné), možnosti efektivně dotazovat uložená data a zároveň nízkou cenu uložení dat, která při použití komoditního hardwaru předčí mnohá pásková úložiště a významně atakuje prosté levné diskové subsystémy.

Další zajímavé případy užití zmiňme alespoň heslovitě. Uchování dlouhodobé historie transakcí a hledání vzorců podezřelého chování pro účely odhalování a prevence podvodů nebo ochrana před praním špinavých peněz. Dále pokročilý monitoring IT infrastruktury pomocí analýzy logů a dat ze senzorů. Tvorba a analýza cenových map nemovitostí a mnohé další.

Hadoop ale není na všechno

I přes celou řadu výhod není Hadoop vhodnou platformou pro všechny úlohy. Není zcela vhodný pro úlohy dotazování v reálném čase (existují však proprietární technologie řešící tyto nedostatky, například Impala či Stinger), i když je schopen near-real time odezvy. Je nevhodný pro transakční úlohy, kde nemůže a ani nechce konkurovat relačním databázím. Aktuální možnosti zabezpečení ho diskvalifikují při práci s velice citlivými daty.

Proč právě teď?

Nízká úvodní investice i provozní náklady, vstřícná licenční politika, případy užití slibující zvýšení konkurenceschopnosti, to jsou hlavní důvody, proč právě teď začít s Hadoop ekosystémem. Dalším driverem bude snaha o vybudování vlastního know-how a zaškolení interních zdrojů, protože počet zkušených a dostupných „big data“ specialistů na českém trhu je nízký.

Jan Augustin Jan Augustin
Autor pracuje jako konzultant divize Banking ve společnosti Adastra.
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.

Inzerce

Konec papírování, digitalizujte a usnadněte si práci!

IT Systems 3/2024V aktuálním vydání IT Systems jsme se zaměřili na vývoj digitalizace ve světě peněz, tedy v oblasti finančnictví a pojišťovnictví. Dozvíte se například, proč je aktuální směrnice PSD2 v inovaci online bankovnictví krokem vedle a jak by její nedostatky měla napravit připravovaná PSD3. Hodně prostoru věnujeme také digitalizaci státní správy a veřejného sektoru, která nabírá obrátky.