facebook LinkedIN LinkedIN - follow
PříLOHA 6/2001

Dolování dat aneb Hledání skrytých souvislostí

Jaroslav Půlpán,, SAS





Jedním z relativně nových termínů objevujících se v oblasti podnikových informačních systémů je dolování dat (Data Mining). Tento termín svým zvukem může mnohým účastníkům každodenního provozu informačních systémů připomenout boj s IT oddělením o slíbené informace, či naopak proces získávání dat do firemního systém od specializovaných útvarů a uživatelů. Pro jiné se dolováním dat spojuje s představou zázračného prostředku, který po snesení všech dat z podniku na jedno místo sám najde řešení všech problémů. Tento článek si klade za cíl vysvětlit pojem dolování dat, uvést metody a techniky, které se pro dolování dat využívají, a ukázat některé reálné úlohy dolování dat řešené dnes v různých odvětvích.

Zdroje dat
Dnešní svět je charakterizován explozí objemu dat sbíraných a ukládaných do databází. Připomeňme si některé oblasti a data v nich získávaná:

- Služby (objednávky zásilkových služeb či cestovních kanceláří, reservace jízdenek/letenek)
- Bankovnictví (bankovní transakce, žádosti o úvěr, historie splátek)
- Telekomunikace (informace o telefonním provozu a platbách za něj, v případě mobilních telefonů obsahuje záznam i informace o poloze atd.)
- Státní správa (daňová přiznání,celní deklarace, žádosti o sociální podporu, geografické informační systémy)
- Koncový prodej (data z registračních pokladen a zákaznických karet)
- Pojišťovnictví (registrace pojistek a plnění)
- Zdravotnictví (zdravotní záznamy, informace pro zdravotní pojišťovny)

Jestliže u nás ještě nejsou některé, výše popisované, zdroje dat běžné v elektronické podobě, pak ve vyspělých státech, pokud v elektronické formě přímo nevznikají, tak v ní určitě končí, uloženy v databázích. Tato záplava dat je obhospodařována transakčními systémy, které většinou zpracovávají aktuální transakce, popřípadě je v postupována do systémů navržených pro analýzy (systémy na dodávání informací - Information Delivery), jejichž úkolem je poskytovat přehledné informace pro rozhodování. Základem moderních systémů na dodávání informací je datový sklad (Data Warehouse) - centrální úložiště sjednocující sběr informací z celého podniku a ukládání historických dat, to vše optimalizované pro analýzy a výkaznictví.

Zpracování dat z rozsáhlých databází a datových skladů má v dnešním světě IT nejrůznější formy.

Tradiční přístupy analyzující data prostřednictvím sestav a výkazů jsou dnes většinou založený na dotazovacích nástrojích (SQL) pracujících nad relačními databázemi, případně na technikách označovaných jako OLAP (On-Line Analytical Processing,), které často využívají uložení dat v multidimensionálních databázích k rychlé presentaci dat v formě tabulek sumovaných před různé hierarchicky uspořádané dimense (např. rok, čtvrtletí, měsíc versus kraje, okresy, obce). Tyto techniky umožňují udržovat přehled o okamžité pozici podniku, či rychlou přípravu konsolidovaných finančních reportů - to vše i v rozsáhlých organizacích a během doby, která by se před několika lety zdála nesplnitelná.

Přesto je mnoho úloh, na které tyto běžné přístupy nestačí. Ve většině těchto úloh není specifikován konkrétní , třeba i složitý, dotaz na obsah databáze. Naopak cílem je nalézt které údaje, či spíše jejich kombinace, jsou důležité při komerčním využití dat z databáze. Pokud je obsahem tradičního databázového dotazu otázka: V kterém kraji byl v tomto čtvrtletí nejúspěšnější prodejce zboží typu X ? pak úlohy dolování dat se snaží nalézt řešení problému: Jaké podmínky (skladba produktů, demografie cílové skupiny) zabezpečují dlouhodobě nejlepší výsledky prodeje ?

Techniky a metody řešení takovýchto úloh jsou nastíněny v dalších odstavcích.

Definice dolování dat
Obecně je přijatá následující definice dolování dat :

Dolování dat je proces výběru, prohledávání a modelování ve velkých objemech dat sloužící k odhalení dříve neznámých vztahů mezi daty za účelem získání obchodní výhody.

Zastavme se u zvýrazněných pojmů. Obchodní výhoda označuje cíl dolování - dolování by vždy mělo mít za cíl řešení konkrétního obchodního problému či nalezení cesty k vylepšení procesu. Cíl by měl být předem definován a jen na jeho základě by se měla připravovat data. Pojem velký objem dat samozřejmě může znamenat různé objemy v různě velkých organizacích, ale zdůrazňuje nutnost podpory managementu a IT při zpřístupňování rozsáhlých dat z různých částí organizace. Data pro dolování by ideálně měla být brána z datového skladu zahrnujícího historické hodnoty z různých podnikových systémů. Příprava dat je úzce svázána s pojem proces. Ten znamená, že dolování není jednorázová analýza, ale, že nasazení technologie dolování dat předpokládá přípravu podnikových procesů umožňujících kontinuální využívání analýz a podporujících zpětné vazby od uživatelů. Ty pak mohou ovlivňovat jak proces sběru data tak definice nových cílů. Vedoucí firmy dodávající řešení zahrnující dolování dat mají pro tento účel zpracovány metodologie procesu dolování, které pomáhají, jak s vlastními projekty, tak s řízení navazujících podnikových procesů.

Dolování data a datové sklady
Existuje mnoho důvodů pro úzkou návaznost datového sklad a dolování dat. Nejdůležitějším důvodem je kvalita vstupních dat pro dolování. Sebedokonalejší modelovací technika či analýza nepřinesou očekávaný výsledek pokud nejsou vstupní data očištěna od chyb, zkontrolována úplnost všech požadovaných údajů a sjednoceny formáty z různých systémů. Procesní charakter dolování dat vyžaduje, aby se jako vstup dolování dat používala průběžně aktualizována data. Všem těmto požadavkům vyhovuje datový sklad. Rozšíření datových skladů je naopak jedním z hybných prvků bouřlivého rozvoje technologii dolování dat.

Metody dolování dat
Dolování dat je označením třídy úloh, které řeší mnohdy zdánlivě nesouvisející problémy z nejrůznějších oborů. Je pozoruhodné, kolik praktických aplikací má několik obecných metod analýzy dat. Výběr metody, která bude použita pro řešení daného problému, je jen jedním z kroků procesu dolování dat. Je třeba mít na zřeteli cíl, pro jehož splnění lze použít více metod. Pak je dobré znát jejich výhody a mít možnost porovnat jejich výsledky.

Prediktivní modelování
je postupem, kdy se, na základě známé množiny vstupních a známých jím odpovídajících výstupních hodnot, hledá nejpravděpodobnější hodnota výstupu pro předem neznámé kombinace vstupních hodnot.

Elementárním příkladem prediktivního modelování je např. hodnocení rizika úvěru v bankovnictví.

Banka soustřeďuje mnoho záznamů o svých minulých klientech a samozřejmě ví, kteří jsou špatnými dlužníky. Po vytvoření prediktivního modelu popisujícího hodnocení dlužníka (výstup) na základě informací o něm (vstupní data) lze ohodnocovat rizika nově příchozích zákazníků (o kterých lze zjistit údaje používaná jako vstupní data modelu). Používanými technikami pro prediktivní modelování jsou různé typy regrese, neuronové sítě a rozhodovací stromy.

Regrese je standardní statistická metoda schopná popsat stupeň důležitosti vstupních proměnných na výstup. Její síla tkví s teoretické propracovanosti odhadu chyb modelu a možnosti hledat i závislost na kombinaci vstupních proměnných. Dobře jsou propracovány metody regrese pro odhad binárního výstupu (logistická regrese) či regrese pracující s daty nabývajícími jen diskrétních (i nečíselných) hodnot. Použití regrese je limitováno pracností a časovou náročností vývoje složitějších modelů Neuronové sítě jsou novou moderní technikou prediktivního modelování vynikající velkou variabilitou možných modelů a snadností modifikace jejich návrhu. Z pohledu regrese jsou neuronové sítě elegantní technikou pro hledání parametrů modelu založeného na velice flexibilním systému vnořených funkcí. Na druhé straně model založený na neuronové síti nemá srozumitelnou interpretaci.

Rozhodovací stromy naopak získaly popularitu díky své snadné interpretaci. Popis modelu pomocí rozhodovacího stromu je řadou jednoduchých rozhodovacích pravidel často presentovaných ve formě grafu. Tyto grafy mohou být snadno bez hlubokých znalostí statistických metod interpretovány řídícími pracovníky.

Při použití všech technik modelování je nutno řešit problémy s volbou počtu parametrů modelu, jejich konvergence a odhadu chyb.

Klasifikace
Obecně je klasifikace metodou pro rozdělování dat do skupin dle jistých kriterií. Pokud jsou tato kriteria předem známa, alespoň pro vzorek dat, lze pomocí metod prediktivního modelování vyvinout model jehož výstupem je klasifikační proměnná. Mnohem častější případ je neřízená klasifikace, kdy výsledná kriteria nejsou předem známa a úlohou klasifikace je jejich nalezení. Používanou technikou v takovýchto případech je shluková analýza (Cluster Analysis). Elementárním příkladem shlukové analýzy je např. nalezení skupin obchodů na základě jejich obratu, sortimentů a typu zákazníků. Nalezené skupiny lze pak použít např. pro specifikaci reklamní kampaně zaměřené na jednotlivé skupiny prodejen.

Analýza asociací
Nejčastějším použitím analýzy asociací, a zároveň jejím ilustrativním příkladem, je tzv. analýza nákupního košíku. Ta se zabývá hledáním kombinací produktů, které se ve vstupních datech (nákupním koši spotřebitelů) vyskytují významně časněji spolu. Cílem je odhalit pravidla typu: při nákupu zboží A a C spotřebitele výrazně častěji nakupují zboží D a B. Odhalení takovýchto kombinací pomáhá marketingovým odborníkům v organizování nabídky či společných balíčků produktů.

Vzorkování
Vzorkování není algoritmem řešící přímo nějaký zadaný úkol dolování dat, ale je to jedna ze základních technik dolování dat umožňující a získat výsledek v rozumném čase. Vzorkování je výběr omezené množiny dat ze základního souboru. Nejjednodušším způsobem vzorkování je náhodný výběr, který slouží jen ke zmenšení objemu zpracovávaných dat a tím k zrychlení výpočtů. Složitější metody vzorkování, např. výběr stejného počtu záznamů daného typu (stejný počet záznamů z každého tarifního pásma), umožňují redukci objemu zpracovávaných dat při současné záruce požadované přesnosti výsledku.

Vzorkování databáze pro analýzy je jistě neobvyklé z pohledu klasických databázových aplikací užívajících SQL nástrojů, ale objevují se již úvahy o nutnosti zařazení takovýchto služeb do standardních databázových serverů.

Použití technik dolování dat
Následující výčet popisuje současné nejčastější použití technologie dolování dat v různých oborech. Při jejich čtení je nutno si uvědomit, že některé oblasti aplikace dolování dat zůstávají důvěrným firemním tajemstvím. To samé platí i pro většinu získaných výsledků.

. Analýza úvěrového rizika - výběr a ověřování kandidátů žádajících o úvěr, lze opět popsat prediktivním modelem, založeném na známém chování stávajících klientů Výhodou je v tomto případě znalost mnoha dat o klientech.

. Vyhodnocování marketingových kampaní - tvorbou prediktivního modelu odezvy, získaného na základě dat ze vzorku zákazníků, lze provést výběr z rozsáhlé databáze zákazníků, který garantuje s největší pravděpodobností odezvy.

. Analýza odchodu zákazníků (churn) - prediktivní model získaný analýzou dat o zákaznících lze použít pro plánování akcí, jenž mohou zabránit odchodu stávajících, nejrizikovějších, zákazníků. V telekomunikacích je používán pojem churn pro změnu poskytovatele služeb.

. Segmentace zákazníků - rozdělení zákazníků do skupin pro marketingové účely. Segmenty pak mohou definovat různé cílové skupiny.

. Detekce podvodů - pomocí prediktivního modelování (nejčastěji neuronové sítě), či shlukové analýzy, lze odhalit podezřelé chování či platebního styku.

. Analýza produktů - přímá aplikace analýzy asociací - umožňuje definovat komplementární produkty pro dané segmenty zákazníků. Lze pak cíleně oslovovat zákazníky, kterým chybí část portfolia produktů či sestavovat požadované balíčky služeb.

. Analýza chování zákazníků - predikce např. vývoje poptávky na základě historických dat.

. Analýza sekvencí - výběr nejčastěji se vyskytující posloupnosti, či hledání stavů předcházejících nějaké události (poškození iniciované více vlivy)

Příklad vyhodnocení prediktivního modelu
Důležitým faktorem úspěšného nasazení dolování dat je stručná a srozumitelná presentace výsledků ve formě přímo použitelné pro rozhodování. Následující schématický příklad popisuje použití prediktivního modelování pro zásilkové (direct-mail) kampaně a ukazuje jak ohodnotit výsledky pomocí tzv. grafů navýšení (lift chart).

Mnoho velkých zásilkových společností nabízí různé služby nebo zboží prostřednictvím zasílaní nabídek poštou. Pokud zákazník odpoví, dostává se do zákaznické databáze (společně s údajem o bydlišti, věku, a zprostředkovaně i o zálibách). Úplné využití těchto databází dnes rozhoduje o úspěchu celého podnikání. Cílem dolování je v tomto případě vybrat z databáze zákazníků ty, u nichž je nejvyšší pravděpodobnost kladné odezvy pro daný typ nabízeného produktu. Používanou metodou je prediktivní modelování. Společnost může buď ověřovat úspěšnost nové nabídky na vzorku náhodně vybraných zákazníků či může rovnou použít historické záznamy o odezvě na podobný typ nabídek zaslaných v minulosti. Tato data jsou pak vstupními informacemi pro hledání prediktivního modelu popisujícího pravděpodobnost odezvy zákazníka např. na určitý typ nového produktu.

Nalezený model je možno použít k ohodnocení všech zákazníků v databázi (tzv. scoring). Nabídka bude samozřejmě zaslána zákazníkům s nejvyšší pravděpodobností odezvy. Následující grafy ukazují jak rozhodnout o tom jaké části zákazníků nabídku zaslat. První graf (lift chart) ukazuje celkovou pravděpodobnost odezvy pokud vybereme-li určitou část zákazníků z databáze setříděné dle pravděpodobnosti odezvy. Ta je vypočtena za základě odvozeného prediktivního modelu. Z grafu je patrné, že pokud bude nabídka zaslána všem (tj. pokud nebudeme využívat modelování), bude celková odezva velmi malá (~7%). Naopak pokud budou zákazníci vybráni na základě modelu dle jejich pravděpodobnosti odezvy, pak např. při zaslání nabídek pouze 20% nejnadějnějších zákazníků můžeme od nich očekávat kladnou odezv v 32% případů. To výrazně snižuje náklady na rozesílání nabídek, na druhou stranu ale soustředění na malý počet nadějných zákazníků omezí celkový počet přijatých objednávek.

Druhý graf znázorňuje zisk (či ztrátu) pro daný rozsah výběru, vypočtený na základě zisku z realizace pravděpodobného počtu přijatých nabídek, fixních nákladů kampaně a nákladů na rozeslání daného rozsahu nabídek. Skutečnost, že kampaň je ztrátová, pokud budeme zákazníky vybírat náhodně je tvrdou realitou nejen v našem příkladě.

Oba grafy, jejichž základem je kvalitní model, skrytý v křivce z prvního grafu, umožňují zvolit optimální velikost segmentu databáze (a tím i hraniční pravděpodobnost odezvy, při které bude ještě nabídka zaslána). Výběr adres z databáze je pak proveden dle pravděpodobnosti odezvy vypočtené aplikací nalezeného modelu na informace uložené o každém jednotlivém zákazníkovi v databázi.

Předpoklady úspěchu dolování dat
Zkušenosti firem plánujících podobným způsobem i několik kampaní týdně lze shrnout do následujících podmínek úspěšného nasazení technologie dolování dat:

. Kvalitní vstupní data
. Spolupráce IT a uživatelů
. Softwarové nástroje urychlující vývoj modelů a porovnání více technik dolování dat
. Propracovaná metodologie implementace procesů dolování dat a řízení projektů dolování dat.

Softwarové produkty pro dolování dat
Techniky dolování dat dnes vstupují do běžné obchodní praxe. Na trhu je několik desítek produktů, které implementují nejrůznější algoritmy. Nástroje pro dolování dat a jejich využití jsou asi ve stejné situaci jako byla relační databázová technologie ke konci osmdesátých let. Komerční uživatelé z nejprogresivnějších společností již léta používají vlastní speciálně vyvinuté programy např. pro modelování marketingových kampaní či analýzu úvěrového risku. Další společnosti přivádí k zavádění technik dolování dat zostřená konkurence na trhu, zvyšující se počty cílových zákazníků, ale i klesající náklady na tuto technologii. Obě tyto skupiny dnes hledají standardizovaná řešení , která pokrývají nejrůznější typy úloh a poskytují výstupy snadno srozumitelné managementu. Zároveň tato řešení musí být schopná nasazení v IT prostředí současných komerčních společností. Zájem takových výrobců, jako SAS Institute s produktem Enterprise Miner, ukazuje, že přední softwarové firmy si uvědomují potenciál dolování dat na IT trhu.

Pozn.: Autor článku pracuje ve firmě SAS Institute, která na našem trhu, ale i v celosvětovém měřítku patří mezi přední dodavatele řešení v oblasti dolování dat a podpory rozhodování, budování datových skladů a manažerských informačních systémů.
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.


Inzerce

5+1 možností, jak a kde automatizovat procesy pomocí ERP systému

Do úspěšných firem se ERP systémy postupně „vkrádaly“ už od 90. let 20. století. Od té doby se však výrazně posunuly, takže podnikům nabízí úplně nové možnosti.