facebook LinkedIN LinkedIN - follow
IT SYSTEMS 3/2012 , AI a Business Intelligence , Banky a finanční organizace

Data mining v bankách

není jen dolování dat z databází



acrea Data mining je jednotlivými sférami a obory lidské činnosti chápán různě. Výrazné odlišnosti bychom mohli najít například mezi akademickou a komerční sférou. Obě sice chápou data mining jako proces odhalování nových, skrytých a potenciálně důležitých informací, ale velký rozdíl je ve způsobu, jak s takovou informací nakládají. Komerční sféra klade velký důraz na akční využití získané znalosti v praxi a její aplikaci v rozhodovacím procesu. A čím dříve tím lépe. Data mining totiž pro komerční sféru znamená šetřit náklady a profitovat. Podobně se data mining diferencuje i oproti klasické statistice, kde výrazný podíl výstupů ve formě tabulek, grafů a reportů končí interpretací daného stavu, kdežto data mining predikuje i stav budoucí.


Typické úlohy data miningu, a příklad jedné netypické navíc

Kritickým momentem data miningu je implementace a integrace řešení do provozních systémů. Odvozené modely a postupy je nutno implementovat, a to buď pomocí použitého dataminingového nástroje, umožňuje-li to, nebo přímo na úrovni databázového serveru. Typickými úlohami data miningu v komerční sféře jsou detekce podvodů v pojišťovnictví (fraud), identifikace zákazníků, kteří chtějí odejít ke konkurenci (churn), segmentace zákazníků pro marketingové účely (cross/up-sell), analýza nákupního košíku v obchodě a jiné.
Společným rysem těchto úloh je, že se buď jednorázově nebo opakovaně provádí ohodnocení nějakého subjektu – půjčky, klienta, pojistného hlášení apod. Subjektu se přiřazuje skóre pravděpodobnosti, se kterou nastane zkoumaná událost, tedy odchod ke konkurenci, nesplacení půjčky, podvodné pojistné hlášení, pozitivní reakce na marketingovou nabídku atd. Důležitým faktorem je čas, kdy tato znalost, toto skóre musí být k dispozici, a jak aktuální v daný okamžik musí být. Proto rozlišujeme úlohy on-line a off-line. U off-line úloh probíhá skórování většinou v dávkách pro větší počet případů, v období, kdy jsou databázové servery nejméně vytížené, typicky přes noc, a v požadované periodicitě – denně, týdně, měsíčně. U on-line, real-time úloh je skóre potřeba znát okamžitě. Když je klient přímo na přepážce nebo na telefonu, musí mít bankovní poradce maximum informací pro správné rozhodnutí, zda půjčku schválit, nabídnout jiný produkt, nebo se pokusit o zvýšení loajality zákazníka nabídkou benefitu. Real-time dataminingové úlohy kladou vyšší nároky na dostupnost zdrojů a infrastrukturu řešení.
Příkladem netypické úlohy řešené dataminingovými nástroji a pomocí dataminingové metodologie může být projekt komplexního hodnocení žadatele o úvěr, který řešila největší slovenská stavební spořitelna. Její potřebou bylo zajistit formální a věcnou správnost údajů v žádostech o meziúvěr ke stavebnímu spoření odpovídající aktuálně platným úvěrovým podmínkám. Cílem projektu byla automatizace a unifikace rozhodování o přidělení úvěru a zavedení kontrolních, transparentně modifikovatelných postupů do bankovního systému tak, aby zavádění budoucích změn bylo možné bez zásahu IT nebo dodavatele řešení.
Projekt byl rozdělen na část integrační, zajišťující předání dat z/do bankovního systému k real-time skórování, část dataminingovou, ve které byly připraveny mechanismy ověřující vstupní data vůči definovaným podmínkám a část implementační, zajišťující evidenci verzí, audit a real-timeskóring. Dataminingová část byla zpracována podle metodologie CRISP-DM.

Různé úlohy, jednotná metodologie

Metodologie CRISP-DM (Cross Industry Standard Proces for Data-mining) slouží jako opora při řešení dataminingových úloh. Metodologie rozděluje dataminingový projekt na fáze a upřesňuje kroky v jednotlivých fázích. Její nespornou výhodou je použitelnost na různé typy úloh. Metodologie nedefinuje striktní předpis, jak danou úlohu řešit, ale jakými pravidly se při jejím řešení řídit (viz obrázek 1, šipkami jsou vyznačeny nejčastější směry vývoje zpracování dataminingové úlohy).

Acrea

Hlavním cílem fáze bnusiness understanding je seznámit se s cíli projektu, provést naplánování prací a definovat kritéria úspěchu, jež budou vyhodnocena na závěr projektu. Ve fázi data understanding se pečlivě prozkoumávají data z hlediska kvality a dostupnosti, řeší se přístup k různým datovým zdrojům, provádí se analýza kvality dat, explorace a vizualizace dat. Ve fázi data preparation, časově většinou nejnáročnější, se provádí datové operace, jako jsou slučování datových matic, přidání záznamů, výběr případů, agregace záznamů, odvození nových proměnných, třídění, ošetření chybných a chybějících hodnot. Fáze modelování pak spočívá v nalezení predikčních modelů, kde je výběr algoritmu často podmíněn typem úlohy a prostředím (banky, telekomunikace, utility). Evaluační fází se ověřuje, do jaké míry modely splňují dataminingová a obchodní kritéria úspěchu. Finální fáze deployment zajišťuje nasazení řešení do praxe a jeho integraci do rozhodovacích procesů.

Řešení (ne)dataminingové úlohy dataminingovým nástrojem

Výše popsaný případ není tradiční dataminingová úloha typu fraud nebo churn, nicméně vychází z obecných principů dataminingových úloh a odpovídá dataminingové metodologii. Pro praktické řešení této úlohy byl použit software IBM – dataminingový nástroj IBM SPSS Modeler, ve kterém byly, na základě platných úvěrových podmínek, definovány scénáře (soustavy kontrol). Scénáře pro vyhodnocení dílčích aspektů žádosti o úvěr (osoby, zajištění, bonita aj.) byly předávány k real-time skórování v softwaru IBM SPSS Collaboration & Deployment Services. Správu procesu, předání dat z/do webových služeb, synchronizaci volání jednotlivých kontrolních scénářů měla na starost aplikace systémového integrátora.
Nejprve bylo nutno definovat sadu kontrolních scénářů. K tomu byl použit dataminingový nástroj, který umožňuje jednoduchou a snadnou formou vizuálního programování vytvořit posloupnost datových manipulací a transformací, od načtení datového zdroje přes odvození nových proměnných a definování kontrolních podmínek až po předání výsledků k dalšímu zpracování.

Acrea

Různé sady kontrolních scénářů odpovídají různým úvěrovým podmínkám. Pro skórování byla vždy použita ta sada scénářů, která odpovídala platným úvěrovým podmínkám v době podání žádosti. Kontrolní scénáře jsou uloženy v centralizovaném databázovém úložišti, které umožňuje evidenci verzí a realizuje real-time skórování. Použití standardního dataminingového nástroje v této nedataminingové úloze přineslo celou řadu výhod.

Přínosy řešení a výsledky

Díky dataminingovému nástroji, v rámci oddělení řízení rizik všeobecně známému a používanému, se podařilo v relativně krátkém čase vybudovat požadované řešení. Jeho největší výhodou je znalost použitých postupů pracovníky zadavatele a jednoduchost zavedení změn v kontrolních scénářích, reflektujících změny úvěrových podmínek. Pomocí druhého, standardního, plně podporovaného nástroje pro sdílení, verzování a real-time skórování byla splněna jedna z hlavních podmínek zadavatele, tedy existence různých verzí kontrolních scénářů a automatický výběr příslušného scénáře podle data podání žádosti o úvěr. Velkým přínosem je, že oprávnění pracovníci oddělení jsou schopni sami, nebo jen s minimální účastí IT oddělení či řešitele, efektivně zavést změny kontrolních scénářů v rámci testovacího i produkčního prostředí v řádu hodin. Všechny postupy jsou transparentní, jednoduše modifikovatelné a auditovatelné. Architektura systému zajišťuje, že změny smí po autentizaci provádět pouze autorizované osoby.
Zavedení systému mělo pozitivní vliv i na procesní systém zpracování úvěrových žádostí. Díky stoprocentní automatizované kontrole formální a věcné správnosti žádostí a dodržování všech pravidel pro schvalování a vyplácení úvěru, bylo možno zrychlit procesy schvalování i vyplácení úvěrových prostředků, tím zvýšit spokojenost klientů a snížit riziko schválení nesprávných úvěrů.

Libor Šlik
Autor je analytikem společnosti Acrea CR.

Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.

Inzerce

Jak využít AI ke zvýšení prodejů?

Promo Forecast AI je jedno z nejzajímavějších vlastních řešení firmy Sluno. Na základě dat z promočních prodejů dokáže pomocí umělé inteligence přesně určit, jaký produkt bude mít v nadcházejících akcích největší úspěch. Obchod­ní­kům i dodavatelům tak poskytuje plnou kontrolu nad celým procesem přípravy promocí od výběru zboží, stanovení ceny až po precizní analytiku na konci akce.