facebook LinkedIN LinkedIN - follow
IT SYSTEMS 5/2017 , CRM systémy , AI a Business Intelligence

Plýtvání daty: Příprava kvalitních dat je v každém CRM projektu náročnou etapou

Ondřej Háva


AcreaAbychom byli schopni uspokojivě vyřešit danou analytickou úlohu z oblasti CRM, měli bychom umět vybrat vhodné analytické postupy, rozumět vybraným technologiím a mít zajištěn přístup k datům. Pro splnění prvních dvou požadavků je třeba se pilně učit a získávat praktické zkušenosti. Při zajišťování přístupu k datům budeme muset překonávat mnohé překážky dané legislativou a konkurenčním prostředím. Je vůbec v našich silách se dostat k dostatečně informativním datům?


Představme si situaci, kdy máme vyřešit konkrétní úlohu z oblasti analytického CRM, jakými jsou doporučování produktů stávajícím zákazníkům, akvizice nových zákazníků či tradiční churn neboli snaha u udržení zákazníků stávajících. Vytvoříme si vizi, jak bude řešení využíváno, odhadneme rentabilitu a připravíme projekt. Například se rozhodneme do rozhraní pracovníků na pobočkách implementovat online doporučovací systém.

Při řešení budeme postupovat podle standardní dataminingové metodologie CRISP-DM. Projekt rozdělíme do šesti fází naznačených na obrázku 1. Zde nám bude stačit i hrubší dělení projektu na analýzu (BU+DU), vlastní řešení (DP, M, E) a implementaci (D). Jednotlivé celky a fáze na sebe navazují, chyba nebo nevyřešený problém v jedné fázi vyústí v chybné nebo nedotažené celé řešení. Podívejme se detailněji na analýzu dat z dostupných zdrojů ve fázi DU (analýza), jež jsou pro získání uspokojivého řešení nezbytné. Z neiformativních dat (nebo dokonce bez dat) nelze ani velmi sofistikovanými modelovacími postupy extrahovat užitečné vzory chování vhodné pro implementaci do našeho doporučovacího systému. 

Obr. 1: Posloupnost fází dataminingového projektu podle zavedené metodologie CRISP-DM.
Obr. 1: Posloupnost fází dataminingového projektu podle zavedené metodologie CRISP-DM. Projekt začíná definováním úlohy a obchodních cílů v první fázi BU a končí implementací optimalizovaného rozhodování do automatizovaných firemních procesů v poslední fázi D. Metodologie nabízí i rozpad jednotlivých fází do specifičtějších etap.

Z jakých datových zdrojů můžeme data čerpat v dnešní době, kdy okolo nás slýcháme pojem big data? Každý z nás za sebou neustále zanechává elektronickou stopu, ve které se může nacházet relevantní informace pro řešení naší CRM úlohy. Abychom ji mohli využít, bude třeba data získat, zpracovat a spojit tak, abychom zkonstruovali aktuální profily hodnocených zákazníků. A to není neřešitelný úkol, ale naopak standardní dataminingový postup přípravy dat.

Rozhlédneme-li se kolem sebe, zjistíme, že data o nás se nachází v bankách, u telko operátorů, v utilitách, u finanční správy, ve zdravotních i komerčních pojišťovnách, u lékařů, na sociálních sítích, v registrech státní správy, na statistickém úřadě, ve školách, v chytrých zařízeních, … A jistě bychom mohli jmenovat dál. Některé z těchto dat určitě můžeme považovat za big data, neboť jsou nejen objemná, ale i variabilní a rychle přibývají. Technologie na jejich zpracování však existují, takže se stačí k datům dostat, extrahovat z nich vhodné atributy a spojit je do zákaznických profilů. Situace vypadá slibně, na první pohled se zdá, že bychom se mohli ve fázi DP (vlastní řešení) věnovat zajímavému úkolu: získávání užitečných atributů z velkých dat.

Po prvním nadšení ale přichází zklamání. Jsme schopni data pro budování doporučovacího systému získat? Jsme schopni k nim přistupovat v reálném čase, abychom mohli doporučovat podle aktuálního a stále se měnícího zákaznického profilu? Bohužel většina výše jmenovaných zdrojů dat je neveřejná a často se na ně vztahuje ochrana osobních údajů, takže by je nemělo být možné ani koupit. Nakonec většinou zjistíme, že můžeme využívat pouze data interní a v některých případech jen ta, k nimž máme povolení od zákazníka. Vize o množství informativních dat se rozplývá. Pokud nějaká data chceme, musíme si je sami posbírat a v tomto směru má každý jen omezené možnosti.

Jestliže se nám podaří získat nějaká dostupná externí data, narazíme na další překážku v podobě identifikace osob. Ačkoli má každý člověk v České republice přiřazené dnes už jednoznačné rodné číslo, v externích a často ani interních datech by se rodné číslo nemělo vyskytovat. Jedná se o osobní údaj, protože z něj lze rozpoznat pohlaví a stáří osob, na který se vztahuje zákon 101/2000 Sb. Jiná spolehlivá identifikace, kterou by sdílely různé datové zdroje, bohužel neexistuje. Každá organizace sice používá své interní identifikátory osob, ale pomocí nich různorodá data nespojíme a nevytvoříme zamýšlené informativní zákaznické profily. Opět se musíme omezit pouze na vlastní data, resp. data, která si sami sebereme a při sběru je opatříme interně kompatibilními identifikátory osob. Co nás tedy čeká a jaké z toho plynou důsledky?

V každém DM projektu je příprava dat velmi náročnou etapou. Když data dobře připravíme, můžeme se pak plně věnovat budování a ladění predikčních modelů. Pokud však chceme vytvořit model opírající se o informativní velká data, přibude nám ještě další časově náročný krok předcházející vlastní přípravu: Budeme si muset data zajistit zpravidla vlastními silami. Navíc bude zapotřebí dohlédnout na to, aby nová data bylo možné během přípravné fáze spojit s ostatními daty do zákaznických profilů pomocí jednoznačných identifikátorů. Tyto požadavky musíme řešit už ve fázi analýzy dat (DU). Nebo se dokonce ukáže, že vhodnější bude realizovat samostatný projekt na získání nových typů dat. Nová data pak zužitkujeme nejen pro budování analytických CRM predikčních modelů, jako je třeba náš doporučovací systém. Výsledkem samostatného projektu získávání dat bude vlastní datové úložiště velkých dat umožňující nejen jejich průběžnou aktualizaci, ale i využívání těchto dat podle potřeby třeba i v reálném čase.

Řešení je to bohužel drahé a opět po jeho zavedení dojde k zvýšení objemu elektronicky ukládaných dat. K běžně uváděným příčinám vzniku big dat, jakou je například Internet věcí, tak přibývá další: nedostupnost již existujících informativních velkých dat. A tak namísto toho, abychom big data efektivně sdíleli, vznikají nová interní úložiště obsahující podobná data a každý je nucen řešit zpracování svých velkých dat individuálně. Na co by se tedy měl data miner připravit?

Ač šance na získání použitelných externích big dat je malá, stále se vyplatí zkusit vypátrat, jestli přece jen není šance je sehnat. Například někteří dodavatelé nabízí data ze sociálních sítí nebo data z veřejných registrů. Vždy ale bychom měli předem vyzkoušet, zda data budeme schopni alespoň z větší části spojit a jaké toto spojení bude vyžadovat úsilí, abychom nekupovali zajíce v pytli. Pravděpodobnější je však varianta, že bude nutné zahájit proces získávání nových velkých dat vlastními silami. Bohužel se musíme omezit jen na data, jaká jsme schopni získat. Například to mohou být data o chování na našem webu generovaná nejen webovými servery, ale i aplikacemi sledujícími chování návštěvníků při prohlížení stránek, data z vybraných částí sociálních sítí nebo data z vlastních call center. Naopak zřejmě nemůžeme počítat s daty například ze zdravotní pojišťovny.

Připravme se tedy na to, že projektům komerčně využívajícím big data bude muset předcházet vytvoření a nastavení procesů na jejich získávání. S tím souvisí nutnost zavedení nových datových úložišť a způsobů sdílení a předzpracování nových dat. A aby byly náklady efektivně využity, musí být dotaženo do aplikačního konce nejen nastavení procesů sběru velkých dat, ale i návazné projekty, které tato data využívají. Ostatně toto tvrzení o dotahování projektů do aplikačního nasazení platí a platilo ve všech dataminingových projektech. A čím více užitečných řešení uvedeme do praxe, tím budou náklady na získávání, sdílení a předzpracování nových velkých informativních dat efektivněji využity.

Acrea Mgr. Ondřej Háva, Ph.D.
Autor článku je vedoucím analytického oddělení společnosti ACREA, lektor, analytik a odborný konzultant. Ve své profesní kariéře se specializuje na dataminingové projekty, a to především v oblasti řízení kreditních rizik.
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.