facebook
Tematické sekce
 
Branžové sekce
Přehledy
 
Tematické seriály
 

GDPR

General Data Protection Regulation zásadně mění zpracování osobních údajů a zavádí nové povinnosti...

články >>

 

Jak uřídit IT projekt a nezbláznit se

Užitečné tipy a nástroje pro řešení problémů řízení inovací a vývoje produktů...

články >>

 

Industry 4.0

Průmysl 4.0

Jaký vliv bude mít čtvrtá průmyslová revoluce na výrobu a výrobní firmy?

články >>

 

Komplexní svět eIDAS

O nařízení eIDAS již bylo mnoho řečeno i napsáno. A proto jediné, o čem...

články >>

 

Trendy v CRM

Systémy pro řízení vztahů se zákazníky (CRM) prochází v posledních letech výraznou změnou. Zatímco dříve...

články >>

 

Příručka úspěšného IT manažera

Dnes je řada IT manažerů opomíjena. Úspěšní bývají brouci Pytlíci a Ferdové...

články >>

 
Partneři webu
Compas automatizace
IT řešení pro veřejný sektor a zdravotnictví , AI a Business Intelligence , Veřejný sektor a zdravotnictví

Odhalování podvodů ve státní sféře pomocí data miningu



AcreaNepodvedeš, nepokradeš. Jedny ze základních předpokladů slušné společnosti. Bohužel však v minulých desetiletích spíše platilo „kdo nekrade, okrádá rodinu“ a nyní stále ještě většinou platí „že příležitost dělá zloděje“. Ve státní sféře, kde se přerozdělují miliardové prostředky, je takových příležitostí opravdu hodně. Odhalování podvodů ve státní sféře čelí několika obtížím. Jsou jimi dynamika prostředí, utajení většiny informací a diverzita podvodů. Důležité je zdůraznit, že nestačí podvod pouze detekovat, ale také aktivně prošetřit a dovést do legislativního vyústění. Tento článek popisuje hlavně první část odhalování podvodů, tedy jejich detekci.


Normální je nepodvádět

Podvod je v českém právním řádu zjednodušeně definován jako chování, kdy někdo uvede někoho jiného v omyl s úmyslem obohatit se. Podobná situace může nastat i neúmyslně, např. nesplněním všech legislativních podmínek. Nicméně platí, že neznalost zákona neomlouvá. Oba případy, úmyslné i neúmyslné, pak anglickou terminologií nazýváme fraud, úlohu jeho odhalování fraud detection. Cílem úlohy je zefektivnit práci vyšetřovatelů, ušetřit peníze a najít nové vzory podvodného chování.

Podvody se vyskytují prakticky všude, kde jde o peníze. Příkladem „omylů“ ve státní sféře mohou být zmanipulovaná výběrová řízení, dotace či daňové úniky. Atraktivitu státní sféry pro podvodníky zvyšuje skutečnost, že státní sféra často není ochotna, nebo s ohledem na rozpočtové možnosti schopna, proti fraudu účinně bojovat.

Detekce podvodů je klasickou dataminingovou úlohou zpracovávající relativně velké množství dat, včetně dat specifických pro různé oblasti státní sféry. Jedná se například o dotační žádosti, daňová přiznání nebo různé obchodní informace. Charakteristikou dat ve státní sféře je, že jsou často zastaralá, nekonzistentní a i v rámci jednoho ministerstva či odboru jsou v různých formátech. Nevýhodou této úlohy je skutečnost, že neexistuje jasný postup jak proti fraudu bojovat. Výraznou oporou při řešení úlohy nám může být obecná dataminingová metodologie CRISP-DM a útěchou skutečnost, že detekce podvodů bývá dataminingová úloha s největší návratností investice, tzv. ROI.

Dataminingová metodologie a nástroje

Detekci podvodů lze řešit různými nástroji a různými postupy. Jedním z nich je řešení úlohy v souladu s dataminingovou metodologií CRISP-DM (Cross Industry Standard Proces for Data-mining). Ta rozděluje dataminingovou úlohu na několik navazujících fází. Metodologie nedefinuje striktně, jak danou úlohu řešit, ale jakými pravidly se při jejím řešení řídit. Šipkami je vyznačena časová posloupnost zpracování dataminingové úlohy.

Acrea

Každá fáze je důležitá a podcenění či nekvalitní provedení jakékoli fáze by mělo fatální následky. V prvé řadě je třeba úlohu pochopit a definovat její cíle. Poté je třeba důkladně prozkoumat a analyzovat data z hlediska jejich kvality a dostupnosti. Časově nejnáročnější je fáze Data Preparation, kde se provádí datové operace, jako jsou slučování datasetů, přidání záznamů, výběr případů, agregace záznamů, odvození nových proměnných, třídění, ošetření chybných a chybějících hodnot. Fáze modelování spočívá v nalezení vhodných predikčních modelů. Ty se následně ověřují, do jaké míry splňují stanovená kritéria úspěchu. Celý proces končí nasazením řešení do praxe a jeho integrací do provozních procesů.

Kvalita predikčních modelů je dána kvalitou dat použitých k jejich odvození. Kvalitu dat nejvíce ovlivňující procesy, které většinou nijak ovlivnit nemůžeme. Pro zajištění kvality dat je za prvé třeba pochopit, jak jsou data zaznamenána, v jakém umístění, formátu, aktuálnosti, granularitě atd. Za druhé musí být k dispozici nástroj, který taková data dokáže zpracovat, provést s nimi potřebné manipulace a transformace, odhadnout a evaluovat predikční modely. Takový nástroj musí být datově nezávislý, graficky a uživatelsky přívětivý a jednoduchý. Musí disponovat širokým spektrem funkcí a predikčních algoritmů. Na obrázku je ukázka rozhraní takového nástroje, ve kterém se vytváří datový tok, posloupnost operací od načtení datového zdroje po export výsledků.

Acrea, modeler


Praktické řešení detekce podvodů

Hlavním cílem detekce podvodů je redukovat obrovské množství případů, které by mohlo být zkontrolováno a identifikovat pouze ty nejpodezřelejší. To zefektivní práci vyšetřovatelů a povede k jejich vyšší úspěšnosti při stejných nákladech. Mechanismus určující podezřelost případu, může být různý. V praxi se používá několik přístupů.

Prvním z nich jsou expertní pravidla. Je to znalost vyšetřovatelů a analytiků získaná zkušenostmi. Pokud tato znalost není nijak formalizována a procesně zaznamenána, hrozí nebezpečí, že odchodem takového člověka se tato znalost ztratí. Formalizací expertních pravidel vznikne sada jednoznačných a srozumitelných podmínek. Expertní pravidla přidělují každému případu trestné body. Jejich součet je kategorizován a každé kategorii přiřazena nějaká akce, například nevyšetřovat, projít standardním postupem, oznámit a prošetřit.

Druhým přístupem jsou predikční modely. Ty vychází z analýzy tzv. behaviorálních dat popisujících chování zkoumaného subjektu. Subjektem může být žadatel o dotaci, či plátce daně. Často se jedná o transakční data, která se agregují na úroveň subjektu nebo za určitá časová období. Pro identifikaci podezřelých případů se používají tzv. supervizované, učící se, modely. Tyto modely potřebují historická data z případů, o kterých je známo, zda se jednalo či nejednalo o podvod. Poté je model použit ke skórování dalších případů. Výsledkem je předpověď, zda se jedná či nejedná o podvod a pravděpodobnost této předpovědi. Predikční modely se učí z historických dat a vědí, co mají předpovídat.

Třetím přístupem je detekce anomálií, kdy se využívají dataminingové algoritmy, které hledají skryté vztahy v datech na základě jejich podobnosti, aniž by předpovídaly podvodné chování subjektu. Chování subjektu není explicitně popsáno konkrétní hodnotou v datech. Zde hovoříme o tzv. nesupervizovaném modelování. Anomální subjekty jsou dobrým kandidátem pro důkladnější kontrolu.

Klíčovým aspektem při detekci podvodů je využití maximální informace a znalosti, kterou máme k dispozici. Kombinace přístupů je podmíněna formalizací expertních pravidel a existencí nástroje, který tyto přístupy dokáže zkombinovat. Velice jednoduše se totiž může stát, že expertní pravidla a predikční modely dávají různé předpovědi, co se týká podezřelosti jednotlivých případů. V případě neshody předpovědí musíme určit, zda mají v rozhodování navrch expertní pravidla či predikční modely. Ukázka kombinace přístupů, a určení z ní plynoucí závažnosti, je barevně naznačena na obrázku. Akce plynoucí z doporučení jsou Refer, červená nejzávažnější, oranžová Standard a zelená Fast track bez dalšího vyšetřování případu.

Acrea, kombinace


Čím více podvodů, tím snadnější odhalení

Bylo řečeno, že úloha detekce podvodů obvykle mívá nejvyšší ROI z klasických dataminingových úloh. To však platí v případě menších podvodů. Menší podvodníci se sice snaží přijít stále s něčím novým a neotřelým, ale „naštěstí“ se úspěšné podvody brzy rozšíří, začnou napodobovat a brzy odhalí. Paradoxně je tedy největší devízou při odhalování podvodů jejich rostoucí počet. Toto bohužel neplatí v případě velkých organizovaných skupin, kdy je pro odhalení řádově menšího počtu, řádově finančně závažnějších podvodů, nutný individuální přístup.

Pokud by nebyly podvody, nebylo by co vyšetřovat. Když už ale podvody jsou, chceme dosáhnout toho, abychom prošetřili co největší objem těch nejpodezřelejších případů, pro jejichž prozkoumání máme dostatečné lidské kapacity. Odhadovaný objem šedé ekonomiky v České republice je přes 15% HDP, cca 600 miliard korun, čili stále je co odhalovat. Detekce fraudu není jednorázový proces, ale kontinuální činnost, kdy se soustavně hledají nové vzory podvodného chování a aktualizují se predikční modely. Je to soustavná snaha o to, nebýt za podvodníky pozadu o tři, čtyři kroky, ale pouze o jeden či dva.

Ing. Libor Šlik, Acrea Ing. Libor Šlik
Autor článku je certifikovaným analytikem a konzultantem pro data mining, sběr dat a jeho automatizace ve společnosti ACREA CR.
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.

Inzerce

Ransomware, hybridní spisy, docházkové systémy a text mining

IT Systems 3/2020Březnové vydání IT Systems jsme připravovali v situaci, kdy je prakticky celý svět zasažen pandemií nového koronaviru. Ať bude další vývoj pandemie jakýkoli, je zřejmé, že nás koronavir zastihl v mnoha ohledech nepřipravené. Podobně nepřipravení jsme ovšem často i proti virům v kybernetické podobě. I proto jsme jako téma na obálku aktuálního vydání zvolili ransomware, tedy vir, který představuje vážnou hrozbu pro informační systémy, na nichž jsme stále více závislí.