facebook LinkedIN LinkedIN - follow
IT SYSTEMS 12/2017 , AI a Business Intelligence

Revoluční Big Data Science v transakčních odvětvích

Petr Paščenko


ProfinitPříchod Big Data technologií přináší revoluci v transakční analytice. Firmy jako Google, Facebook nebo Amazon sbírají obrovské objemy dat o aktivitě svých uživatelů. Každé kliknutí, každé zobrazení obsahu, každý like, vytváří transakci mezi klientem a nějakým obsahem. V jedné vteřině vznikají miliardy takových spojení. Přestože jedno každé je nevýznamné, dohromady tvoří ucelený obraz o vlastnostech, preferencích a budoucím chování klientů. Díky demokratizaci technologií velkých dat se tyto metody postupně šíří i do dalších oblastí transakčních dat jako je bankovnictví, telekomunikace a pojišťovnictví.


Co je to transakční odvětví?

Je to každé odvětví, ve kterém vzniká velké množství transakčních dat. A co jsou transakční data? To jsou data popisující jakékoli spojení mezi dvěma stranami. Jednou z nich může být váš klient a tou druhou cokoli jiného. Jednoduchým příkladem je finanční transakce: převod peněz mezi dvěma klienty banky. Transakční charakter mají i telekomunikační data; každý hovor či sms zpráva spojuje oba držitele koncových zařízení. Obrovským zdrojem transakčních dat je internet. Přístupy uživatelů na stránky, klikání, nakupování, komentování, lajkování, sdílení, sledování obsahu, to vše vytváří neviditelná spojení mezi vámi a objekty ve vašem virtuálním okolí – transakce. Všechna tato data mohou a obvykle bývají zaznamenávána, ukládána, analyzována a komerčně využívána. Pravým přeborníkem v tomto oboru jsou velké technologické firmy.

Jak to dělají technologičtí giganti?

Víte, co je to Google? Asi odpovíte, že vyhledávač, ale to jste vedle. Máte pravdu, součástí práce Googlu je i vyhledávání obsahu na internetu, ale to je ve skutečnosti ta méně významná část úspěchu této firmy. Google je především řadič. Kouzlo Googlu není v tom, najít v nekonečném internetu všechny výskyty vámi hledaného slova, ale seřadit je na stránce tak, aby to, co hledáte, bylo skoro pokaždé na prvních několika místech a prakticky vždycky na první stránce. Právě proto je Google nejúspěšnější firmou současnosti. Tušíte správně, že na pozadí běží složité algoritmy (Page rank, kolaborativní filtrování, pokročilé textové algoritmy, atd.) zpracovávající převážně transakční data: odkazy ze stránky na stránku, historii hledání – co jste hledali, na co klikli a kudy jste nakonec odešli.

Facebook na to jde podobně. Zdrojem příjmů FB je stejně jako v případě Googlu reklama. Čím více času strávíte projížděním nekonečného proudu příspěvků, tím více placených příspěvků uvidíte a tím větší je šance, že na některý šikovně vybraný kliknete. Způsobů jak sestavit váš osobní proud zpráv je mnoho a liší se v tom, jestli vás zaujmou a pohltí, nebo znudí a odradí. Klíč k sestavení správného výběru a pořadí příspěvků dáváte vy sami svým předchozím chováním: koho čtete, komu dáváte like, s kým jste ve skupině a s kým se shodnete. Like od některých přátel funguje jako doporučení, od jiných ne.

Dalším zajímavým příkladem jsou obrovské internetové obchody a streamovací služby jako je Amazon, Netflix, Spotify a opět Google se službou Youtube. E-shopů s knížkami a webů s audiovizuálním obsahem je mnoho, ale to, co odlišuje leadery trhu od všech ostatních je jejich schopnost doporučit nám obsah, který nás zaručeně zaujme. Určitě to znáte, v jednu chvíli si jdete na Amazon koupit konkrétní knihu a vzápětí máte v košíku šest knih vybraných z nabídkového pruhu okolo. Fenomén utonutí v hlubinách Youtube funguje velmi podobně.

Cesta k opravdu výkonnému doporučování není ani krátká ani snadná. Zajímavý způsob zkusila firma Netflix. Aby našla nejlepší algoritmus, který vyřeší ústřední problém jejího byznysu, otázku, jak se jeden každý film bude líbit konkrétnímu uživateli, vyhlásila veřejnou výzkumnou soutěž o milion dolarů tzv. Netflix Prize. Populární soutěž vyvolala v komunitě datových výzkumníků vlnu aktivity. Téměř dva roky vylepšovaly týmy z celého světa výkonnost svých algoritmů procento po procentu. Stanovenou laťku se dlouho nedařilo překonat. Nakonec se to podařilo netradiční metodou: nejlepší algoritmus byl sestaven jako efektivní kombinace horních 500 algoritmů v průběžném pořadí.

Za vším hledej algoritmus

Na jakém principu pracují algoritmy, o kterých mluvíme? Ústřední myšlenkou většiny z nich je analýza transakčních vztahů mezi objekty. Například mezi divákem a filmem. Transakce vznikne, když divák shlédne film nebo když se mu líbí. Takto lze sestavit rozsáhlý graf (síť), jehož uzly jsou lidé a filmy. Lidé, kteří viděli většinu stejných filmů a dali jim navíc podobná hodnocení, mají podobný vkus. Dvojice filmů, na které se často dívají stejní lidé, budou mít podobný obsah. Takto lze z dat rozpoznat podobnostní vztahy mezi lidmi a filmy a využít je k tomu, abychom člověku doporučili ten správný film; tedy ten, který už viděli a dobře hodnotili lidé s podobným vkusem a který je navíc podobný ostatním filmům, které divák už dříve viděl a dobře hodnotil.

Vztah mezi uzly v grafu nemusí být jen jednoduchá binární informace (viděl, klikl, atd.) ale může nést další informace (síla vazby, pozitivní/negativní náboj). V datech lze rozpoznat i více různých typů vazeb. Příkladem je Facebook, který úspěšně rozpoznává, který z vašich přátel je vaším životním partnerem. Statistiky ukazují, že ve vaší sociální síti je to právě váš partner či partnerka, kteří s vámi sdílejí přátele napříč jinak izolovanými skupinami: vaše partnerka zná vaši rodinu, pár lidí z práce, několik kamarádů odsud a odtamtud. Princip je vcelku jednoduchý, ačkoli přesná kalibrace statistik je komplexní problém, který vyžaduje mnoho počítání.

Demokratizace velkých dat

Nutnou podmínkou pro detailní analýzu vztahových dat je velký výpočetní výkon. Většina zmíněných algoritmů je založena na násobení velkých vztahových matic o miliardách prvků a řešení rozsáhlých lineárních soustav. Přípravné a následné výpočty často zahrnují komplexní agregace a nelineární transformace dat. Ani velmi výkonné konvenční počítače na tyto výpočty nestačí. Velké technologické firmy tento problém vyřešily zřetězením jednoduchých výpočetních stanic do rozsáhlých clusterů (prvních Big Data architektur). Díky nim získaly pro své výpočty potřebný výkon za únosnou cenu. V posledních několika letech dochází k uvolňování technologií pro zpracování velkých dat i do firem mimo globální technologickou špičku. Lze očekávat, že s dostupností výpočetního výkonu se objeví i algoritmy pro analýzu vztahových dat uzpůsobené pro širokou paletu dalších oborů.

Budoucnost pro finance a telko

Oborem, který se nabízí jako jeden z prvních, je bankovnictví. Data o finančních transakcích (převody, inkasa, platby kartou, výběry, atd.) představují ideální bázi pro vztahové modelování. Moderní banka dokáže z transakcí vyčíst, pro koho a na jaké pozici klient pracuje, kteří klienti jsou jeho kolegové, kdo tvoří klientovu rodinu, za co a kolik klient utrácí, atd. Transakční data umožňují rozkrýt a zrekonstruovat klientovu sociální síť. Banka pro to má dobrý důvod. Málo co o vás vypovídá tolik, jako lidé, kteří jsou kolem vás. Navíc, známe-li statický obraz, můžeme rozpoznat i jeho změnu (založení rodiny, změna zaměstnání, atd.) Díky tomu můžeme přesněji odhadnout riziko, lépe zacílit i načasovat nabídky produktů a služeb a vůbec zvyšovat spokojenost zákazníků.

Ještě mnohem podrobnější data než má vaše banka o vás existují v databázích telekomunikačních operátorů. Je to právě operátor, před kterým jako na dlani vystupuje vaše sociální síť. Kromě toho může operátor pracovat s údaji o poloze vašeho telefonního přístroje, ze kterých snadno vyčte vaše zvyklosti, denní rytmus chování, atd. Komerčně velmi zajímavou oblastí je propojení dat z více zdrojů. Dobře zpracovaná telekomunikační data mohou přispět ke zpřesnění rozhodovacího procesu - například při žádosti o půjčku nebo vyhodnocení pojistné události. Už v současnosti se mobilní data využívají v některých zemích pro přesnější stanovení povinného ručení na principu „Pay as you drive.“

Obchodních příležitostí v této oblasti existuje celá řada. Přitom je ale potřeba respektovat platnou legislativu a osobní data využívat pouze pro účely, pro něž byl získán souhlas klienta. Každý má právo si zvolit, zda nechá korporace nahlédnout do svého života a možná získá výhodnější obchodní podmínky, nebo se spokojí s průměrnou sazbou a zachová si soukromí.

Petr Paščenko Petr Paščenko
Autor článku působí na pozici Head of Data Science ve společnosti Profinit.
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.


Inzerce

Signys Logistics: Řízení skladů přes mobilní aplikaci efektivně a online!

Moderní logistika vyžaduje efektivní a spolehlivé řešení pro řízení skladů a sledování zásob. S aplikací Signys Logistics a modu­lem řízených skladů WMS Signys máte na dosah ruky nástroje, které vám umožní zvýšit efektivitu vašich logistických operací a dosáhnout tak co nejvíce optimálního využití zdrojů.