facebook LinkedIN LinkedIN - follow
IT SYSTEMS 6/2011 , AI a Business Intelligence

Data mining (nejen) v energetice



Rostoucí objemy dat a informací o zákaznících představují v energetických organizacích obrovský potenciál pro obchodní a strategické využití. Pro naplnění cílů a výzev je správné rozhodnutí hlavním mezníkem mezi úspěchem a neúspěchem. Co potřebujeme k takovémuto rozhodnutí? Informace? Ano, ale jak získat ty správné informace, jež nám zaručí úspěch? Právě k tomu nám slouží data mining, tedy proces shromažďování a vyhodnocování dat pro získání optimálního rozhodnutí.


Nastupující silná konkurence předpokládá využití všech marketingových zdrojů. Databáze, datové sklady, operativní a neustále upravované proudy dat jsou v tomto směru tou nejvyšší hodnotou. Je v nich informace, kterou je třeba vydolovat a převést do tvaru použitelného pro rutinní rozhodování i pro jednotlivá ad hoc rozhodnutí. Marketing je jednou z oblastí, kde má tento přístup již dlouhou tradici v jiných oborech a lze předpokládat, že se v široké míře dostane i do oblasti utilit. Přístup k zákazníkům je různý, buď se útočí zeširoka, nebo se využívá cíleného marketingu a různých cross/up-sell nabídek. Otevřením trhu se energetičtí giganti dostali do stejné situace, v jaké před nimi byly telekomunikační a bankovní společnosti, a tak i oni postupně objevují užitečnost data miningu. Nyní tyto společnosti potřebují řešit základní úlohy, jako jsou behaviorální segmentace zákazníků a spotřebitelů, a odhalit ty zákazníky, kteří inklinují k odchodu ke konkurenci, inklinují k podvodnému chování. Potřebují umět efektivně takové případy vyřešit, nebo jim preventivně zamezit.

Od čistých dat k celému modelu

Data miningový proces by měl mít svoji metodologii, která zaručí, že nic podstatného nebude opomenuto a vše bude správně zdokumentováno. Takovou metodologií může být například softwarově nezávislá metodologie CRISP-DM, vyvinutá konsorciem firem z různých z prostředků EU. CRISP-DM je veřejně dostupná metodologie pomáhající celý dataminingový proces spolehlivě a opakovaně realizovat. Metodologie je relativně pružná vzhledem ke specifickým požadavkům různých úloh a je zaměřena na věcné problémy rozhodování. Velké dataminingové projekty člení na etapy a v rámci etap provádí další jemnější členění.
Metodologie říká, že nejprve je nutno problém dobře pochopit, abychom měli představu o tom, jaká data vlastně potřebujeme a pak kde a jak jsou uložena. Víme-li, co potřebujeme, musíme to v rámci přípravy dat získat, tedy data načíst a provést s nimi různé datové manipulace a transformace. Cílem je vytvořit modelovací matici pro vybranou úlohu, nad kterou hledáme takový model, který by data charakterizoval nejlépe, nejrychleji, nejjednodušeji, zkrátka tak, jak si určíme. Ve fázi evaluace je potřeba model ověřit nad novými daty. Po evaluaci modelu je model nasazen do produkčního prostředí.

Modelová úloha z praxe

Pokusme se nyní demonstrovat použití data miningu na příkladu velké energetické společnosti, která chce řešit několik úloh. Marketingové oddělení společnosti se snaží oslovit a získat nové zákazníky. Většinou začne u svých zákazníků a nabídne jim další produkt. Pokud zákazníkovi již prodává plyn, zkusí mu nabídnout i elektřinu, a naopak. Bude tedy vycházet z analýzy současných i nových zákazníků, vybere si „cenné“ a „bezproblémové“ zákazníky s dobrou platební morálkou a pokusí se najít takové vzory chování, které by naznačovaly potenciál k cross-sell nabídkám. Druhou úlohou mohou být predikce očekávané spotřeby. Ta je důležitá z hlediska řízení a správy přenosové soustavy. Oddělení rizik naopak hledá potenciální podvody, machinace s fakturami, odečty apod. Příkladem může být hlášení nižších odečtů před plánovaným zdražováním.
Pro tento článek jsme si však vybrali úlohu predikce odchodu zákazníků ke konkurenci. K dispozici máme celou řadu datových zdrojů obsahujících informace o zákaznících, firmách i domácnostech, smluvních účtech a smlouvách. Data jsou z různých zdrojů, v různých formátech a různého charakteru – statická a transakční. Prvním problémem tedy je konsolidace datové základny. Zde je potřeba vyvrátit jeden mýtus o data miningu, a to že představuje pouze modelování a modelovací algoritmy. Ano, data mining může být modelování, ačkoli celá řada úloh žádné modelovací algoritmy nepotřebuje, ale hlavně je to práce s daty, pak práce s daty a nakonec ještě trochu práce s daty.
Příprava dat v praxi činní i osmdesát procent času řešení úlohy. Pro naši úlohu tedy potřebujeme takový nástroj, který tuto dobu zkrátí na minimum, a to tak, že načte data z databází různých typů, textových souborů různých formátů v rozsahu milionů záznamů a desítek či stovek proměnných, provede příslušné konverze typů proměnných a další datové transformace tak, aby data mohla být spojena v jeden konzistentní celek.

spss


Spojením zákaznických a transakčních dat může vzniknout datová základna třeba s padesáti miliony případy obsahujících spotřeby různých zákazníků za různá období. To vše se pak musí pomocí restrukturalizace a agregace přetransformovat tak, aby jeden řádek odpovídal jednomu zákazníkovi. Poté se z celé řady proměnných a vzájemných kombinací proměnných vytváří nové odvozené proměnné a generují se nové příznakové, stavové, proměnné (tzv. flag), které nám pomohou v dalším modelovacím procesu. O každém zákazníkovi chceme znát informace o jeho spotřebě, platební morálce, sociodemografických charakteristikách, ideálně i nějaké historické údaje, informace ze zákaznických call-center zpracované pomocí textminingu, i další například tržní informace z dané oblasti.

Data mining přináší novou formu informací, jež slouží jako podpora pro rozhodování a která v kombinaci s dobrým marketingovým myšlením utváří tu správnou cestu k úspěchu.

 

Modelování

K modelování naší úlohy, kdy chceme identifikovat zákazníky, kteří chtějí odejít ke konkurenci, je potřeba jistá historická znalost. Námi hledaný model se musí naučit identifikovat ty proměnné, které jsou z pohledu odchodu zákazníka ke konkurenci nejvýznamnější, na základě historických případů zákazníků, kteří již skutečně odešli. Jinými slovy existuje jedna cílová proměnná, která nabývá hodnot odešel/neodešel a celá množina různě významných prediktorů. Těmi mohou být číselné proměnné, ordinální i nominální proměnné a celá řada v předchozí fázi vytvořených stavových (flag, příznakových) proměnných.
Naším cílem je najít přiměřený počet prediktorů nejlépe popisující cílovou proměnnou. Jednoduchost modelu je často vyžadována z důvodů optimalizace, implementace a aktualizace. Proces v této fázi končí nasazením do praxe, tzv. skórováním zákazníků, vyjádřením jejich potenciálu k odchodu ke konkurenci. Výsledkem je předpovídaný stav a pravděpodobnost vyjadřující míru jistoty modelu.

spss

 

Data mining je konkurenční výhodou

Samotné skórování zákazníků je pouze první krok. Víme-li, který zákazník odejde, aktivujeme proces, který se pokusí zabránit zákazníkovi v přechodu ke konkurenci. Podle hodnoty zákazníka spustíme jeho „záchranu“. Otestujeme účinnou retenční kampaň, vybereme vhodný komunikační kanál a zákazníkovi hodíme záchranný kruh.
Energetické společnosti se v současné době neustále předhánějí s různými nabídkami, které mají za úkol zákazníka udržet či „přetáhnout“ od konkurence. Jedná se o různé dárky, nabídky fixace ceny, slevová zvýhodnění, slevy za on-line komunikaci, výhodnější energetické poradenství apod. Platným pravidlem totiž je, že je jednodušší a levnější si zákazníka udržet než získat nového. Vyhrává ten, kdo si toto uvědomí co nejdříve.
Data mining je již mnoho let v oblasti obchodních společností, bankovnictví a telekomunikací celosvětovým fenoménem, a pokud je kvalitní nástroj doplněn o dobrou myšlenku, je využití potenciálu ze skrytých informací v datech zaručeno.

Libor Šlik
Autor je konzultantem a analytikem společnosti SPSS CR.

Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.

Inzerce

Pět způsobů, jak AI změní náš svět k nepoznání

AI_analyzuje_data-PR.jpegUmělá inteligence (AI) a strojové učení (ML) přináší už více než 10 let podnikům i výzkumníkům stále možnosti. Ať už jde o využití prediktivní analýzy k předvídání údržby zařízení, nástroje počítačového vidění, které dávají oči robotům na automatických montážních linkách, nebo digitální dvojčata sloužící k simulaci fungování továren, měst, a dokonce i celých ekonomik, seznam aplikací poháněných AI je dlouhý a stále se prodlužuje.