facebook LinkedIN LinkedIN - follow
IT SYSTEM 9/2000

Umíte využít svá data?

Vše, co jste chtěli vědět data miningu, ale báli jste se zeptat

Michal Prokeš





V posledních několika letech slýchávají manažeři podniků rozmanitých odvětví z mnoha stran o data miningu (DM), neboli dolování dat. Často však jediným posluchačovým dojmem je aura mystického oparu, který se nad data miningem vznáší a pouze umocňuje dojem, že se jedná v podstatě o vědeckou a univerzitní hříčkou, vzniklou v jakýchsi frankensteinovských laboratořích a nemající valného praktického využití, případně jakousi surovou technologií, která na své zkrocení a ovládnutí teprve čeká.

Co je data mining?
Poměrně dobrou definici pojmu data mining podal v roce 1996 pan Fayyad se svými spolupracovníky: "Data mining je netriviální proces zjišťování platných, neznámých, potenciálně užitečných a snadno pochopitelných závislostí v datech". Metody, se kterými data mining pracuje, jsou skutečně netriviální a v mnoha případech absorbují poslední poznatky z umělé inteligence a strojového učení. Zároveň však je podstatným znakem data miningu snaha zjištěné výsledky reprezentovat formou co možná nejpřístupnější uživateli. Touto formou mohou být například implikace ve tvaru rozhodovacích nebo asociačních pravidel, shluky podobných dat nebo rozhodovací stromy.

Hlavní prioritou data miningu je především praktická použitelnost metod. Bez zřetelného předložení výsledků by se algoritmy dolování dat uchýlily do pozice zneuznaných géniů, kterým rozumí jen hrstka zasvěcenců. Praktickou orientaci dokládají i další vlastnosti: očekáváme, že dolování dat nebude jen potvrzovat informace, které již známe, ale naopak bude přicházet s neznámými. Data mining je zároveň schopen generalizace, tj. nalezené závislosti by měly být obecné a měly by platit i pro data stejného charakteru, která dosud nebyla analyzována. Jedná se zároveň o iterativní proces, kdy souvislosti nalezené v jedné fázi pomáhají lépe porozumět a obohatit vstupy pro další fázi.

Co data mining umí?
Data mining nevznikl jako jednotný vědní obor. Metody, které používá, patří do nejrůznějších oblastí. Jedinou společnou charakteristikou je jejich cíl: vyhledávat závislosti v datech. Přirozenou oblastí, ve které lze nalezené závislosti uplatnit, jsou například různé typy predikcí. Při nich předpokládáme, že pokud se data v minulosti chovala podle nějakého typu závislosti, budou se tak chovat i do budoucna. Pokud například pokles úrokové míry vedl v minulosti ze 70 procent k následnému vzestupu akciového kursu, můžeme tuto závislost předpokládat i do budoucna. Jak už bývá v IT zvykem, názvosloví není jednotné, ale obyčejně, pokud se přímo snažíme uhodnout spojitou hodnotu (například cenu akcií), mluví se o predikci, pokud se snažíme uhodnout diskrétní hodnotu, mluví se o klasifikaci. Často používaným příkladem klasifikace je rozhodnutí banky, zda udělit či neudělit úvěr (klasifikace do dvou tříd) na základě přiloženého dotazníku žadatele s údaji o věku, stavu, výši příjmu atd.

K čemu data mining použít?
Tématem, které v současnosti hýbe obchodním světem, je Customer Relationship Management (CRM). Údaje o zákaznících byly ceněny vždy. Vzestup webu a výhody členských karet však dnes nutí zákazníky odevzdávat cenná data o svých nákupech a demografických údajích více než kdy předtím. Zbývá jen shromážděná data vhodným způsobem analyzovat. Data mining ve spojení s CRM je tím správným nástrojem na správném místě.

Při získávání zákazníků lze klasifikací vytipovat zákazníky, kteří odpoví na hromadný mailing a snížit tak náklady na kampaň.

Shluková analýza zjistí vysoce ziskové segmenty zákazníků, které stojí za to pro firmu udržet a zacílit nové marketingové kampaně na zákazníky s podobným profilem. Různé segmenty zákazníků lišící se jen zakoupeným zbožím jsou nejlepším terénem pro cross-selling.

Kromě CRM (a jeho typických úloh jako získávání zákazníků, analýza chování zákazníků, udržení zákazníků, cross-selling) může být data mining využit pro nejrůznější druhy predikcí (velké úspěchy slaví predikce pomocí neuronových sítí ve finančním sektoru), asociační pravidla nacházejí použití nejen v retailu, ale i ve zdravotnictví při zjišťování skupin příznaků a vyhledávání skupin léků, sekvenční a shluková analýza slouží pro nacházení podvodů v bankách.

Projekt dolování dat
Nejdříve je třeba přesně specifikovat oblast, která reprezentuje pro management palčivý a pro DM řešitelný problém a následně definovat datové zdroje, které by měly být konzistentní a měly by obsahovat čistá data. Proto faktorem, který nasazení data miningu podstatně urychlí, je přítomnost datového skladu. Pokud ve firmě datový sklad není dosud zaveden, bývá právě data miningový projekt dobrým důvodem jej vybudovat.

Ani zde však ještě nejsme u konce práce s daty. Mnohdy je potřeba i u čistých dat provést další transformace u preprocessingu, který hledání závislostí urychlí. Teprve poté lze v iterativním procesu hledat vhodnou metodu a její parametry tak, aby výsledek byl co nejlepší. Příprava dat a parametrizace data miningových metod je vysoce specializovaná činnost, vyžadující nemalé znalosti, bývá tedy zvykem svěřit tuto práci do péče odborníků s patřičnými zkušenostmi.

Použijeme-li paralelu se skutečným hledáním zlatých nugetů, tak na konci datového dolování je vybírání ryzích znalostí a stejně jako vše, co prospektorovi uvázne na rýžovací pánvi, není zlato, tak ani všechny výsledky znalostních algoritmů nejsou použitelné. Data mining umí zjistit závislosti v datech, není však schopen nahradit odborníka při posuzování vydolovaných pravidel. Ta mohou být triviální a zřejmá i laikovi, jiná pravidla může za triviální označit jen znalec poměrů, které v daném podniku panují.

Závěr
Trh data miningu roste v posledních několika letech exponenciální řadou. Ceny technologií se snižují, počet instalací roste, profilují se specializovaní poskytovatelé řešení, což opět vzbouzí větší důvěru v zákaznících. Vznikají vertikální řešení pro jednotlivé obory průmyslu a moderní CRM je bez data miningu téměř nemyslitelný. V současné době je již data mining jedinečnou konkurenční výhodou poskytující podniku lepší porozumění obchodním procesům. Data mining je velmi dobře rozjetá technologie a dnes může být ten nejlepší čas využít jej jako novou zbraň v boji o lepší postavení na trhu. Dřív, než ji použije konkurence.

Stav ve světě…
Trh data miningu roste v posledních několika letech exponenciální řadou. Ceny technologií se snižují, počet instalací roste, profilují se specializovaní poskytovatelé řešení, což opět vzbouzí větší důvěru v zákaznících. Vliv bude mít jistě i to, že do této oblasti vstupuje též firma Microsoft možnostmi data miningu v přicházející verzi MS SQL serveru.

Vznikají vertikální řešení pro jednotlivé obory průmyslu, moderní CRM je bez data miningu téměř nemyslitelný. DM je velmi dobře rozjetá technologie a dnes může být ten nejlepší čas využít jej jako novou zbraň v boji o lepší postavení na trhu. Dřív, než ji použije konkurence...

…a co na to Češi?
I v České republice začíná uzrávat čas pro odhalení obrovského potenciálu skrytého v datech a jeho využití v obchodních procesech. Společnost ADASTRA, orientovaná na poskytování řešení v oblasti Business Intelligence a Data Warehousing, se v rámci své projektové a konzultační činnosti zabývá i problematikou Data Miningu. Z pohledu produktového nabízí především DM řešení kanadské firmy Angoss nově integrované s MS SQL serverem. S jejími produkty má například i zkušenosti Dr. Jan Mrázek, vedoucí divize Business Intelligence v Bank of Montreal, s nímž ADASTRA navázala spolupráci orientovanou na český a slovenský trh.

Pan doktor Mrázek řídil návrh a implementaci "Customer Knowledge Base & Profitability System" - jednoho z největší vyvinutých data mart na světě. Další projekty, které vedl v Bank of Montreal, ušetřily bance stovky milionů dolarů a vytvořily nové obchodní příležitosti v rovině strategie i přímého řízení procesů.

Pro české a slovenské firmy se tak otvírá unikátní možnost získat ta nejlepší řešení Data Miningu, Business Inteligence a Data Warehousingu. Spolupráce doktora Mrázka a Adastry bude orientována především do oblasti metodiky řízení projektů, nastavení správných obchodních vizí, kterých má být implementací datového skladu dosaženo a volby vhodných technologických nástrojů pro realizaci.

Autor článku pracuje jako Software specialist ve firmě ADASTRA - Division of Speedware s.r.o.


www.adastra.cz
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.


Inzerce

Modernizace IS je příležitost přehodnotit způsob práce

IT Systems 4/2025V aktuálním vydání IT Systems bych chtěl upozornit především na přílohu věnovanou kybernetické bezpečnosti. Jde o problematiku, které se věnujeme prakticky v každém vydání. Neustále se totiž vyvíjí a rozšiřuje. Tematická příloha Cyber Security je příležitostí podívat se podrobněji, jakým kybernetickým hrozbám dnes musíme čelit a jak se před nimi můžeme chránit. Kromě kybernetické bezpečnosti jsme se zaměřili také na digitalizaci průmyslu.