facebook LinkedIN LinkedIN - follow
IT SYSTEMS 6/2008 , AI a Business Intelligence

Využíváte efektivně potenciál skrytý v datech?

Praktický příklad využití data miningu



Využití data mininguV databázích, zejména velkých společností, bývá uloženo množství informací, které v případě efektivního zpracování mohou přinést nemalé úspory a zvýšit šance uspět v silném konkurenčním boji. A právě proces data miningu (dolování dat) umožňuje nalézt souvislosti v datech, které nejsou přímo zřejmé a které napomáhají lépe porozumět firemním procesům a obstát v konkurenčním prostředí.


Využívání data miningu v posledních letech výrazně roste a jde napříč obory. Typickými uživateli těchto nástrojů jsou společnosti z bankovního sektoru, pojišťovny nebo například telekomunikace. Data mining se čím dál více využívá také v různých obchodních společnostech, službách či státní správě. Velké datové sklady přímo vybízí k lepšímu využívání cenných informací.
V tomto článku se zaměříme na dataminingové úlohy týkající se hledání asociací a sekvencí v datech. Tyto metody mohou výrazně pomoci například při plánování marketingových strategií, tvorbě produktových balíčků, při péči o zákazníky, detekci podvodů atd.

Zdroj dat

Data se týkají prodeje náhradních dílů pro „bílé zboží“ jedné nadnárodní společnosti. Sledována byla skupina zákazníků, kteří nakoupili zboží u konkrétních prodejců této společnosti v určitém období. Celkově se jedná o 898 zákazníků, kteří nakupovali u osmi prodejců v průběhu šesti měsíců (viz tab. 1). Datový zdroj obsahuje datum a den v týdnu, kdy se prodej uskutečnil, a dále místo sídla prodejce, kde bylo zboží objednáno. Každá komponenta má svůj identifikátor (ID produktu). Jednotliví zákazníci jsou vedeni pod identifikačním číslem (ID zakaznika) a je patrné, v jakém pořadí uskutečňovali jednotlivé nákupy.

Cíl analýzy

Cílem je popsat typické chování zákazníků, tj. nalézt charakteristické skupiny náhradních dílů „bílého zboží“, které zákazníci odebírají.

Vstupní data
Tab. 1: Vstupní data

Výsledek analýzy je podkladem pro tvorbu strategie produktového managementu s cílem rozšířit sortiment zboží odebíraného jednotlivými zákazníky a podpořit obrat u prodejců.

Jak z dat získat užitečné informace?

Z hlediska plánovaného projektu je zajímavé sledovat:
1. Které komponenty jednotliví odběratelé za sledované období nakoupili?
2. V jakém pořadí se nákupy uskutečnily?

K nalezení skrytých vzorů v datech, které popisují chování zákazníků, použijeme analýzu sekvencí a asociací. Výsledkem analýzy budou pravidla tvaru KDYŽ podmínka PAK následek. (V angličtině se používá označení IF body THEN had.) Pravidla jsou určována na základě četností, s jakými se podmínka a následek vyskytují v datech. Díky této analýze dokážeme efektivně odpovědět na otázky typu: Které produkty je dobré zákazníkovi nabízet současně? Když zákazník koupil zboží A, který další produkt je vhodné mu nabídnout?

Vlastní analýza

Na data můžeme pohlížet sekvenčně, či nesekvenčně. Podívejme se nejprve na nesekvenční přístup. V tomto případě se nejedná o klasický „nákupní košík“, kdy zákazník nakoupí více druhů zboží najednou. Vzhledem k plánovanému záměru managementu budeme za jeden „nákupní koš“ považovat nákupy jednoho zákazníka za půl roku. Výsledkem analýzy mohou být asociační pravidla uvedená v tabulce 2. Z výsledků je například patrné, že zákazník si s 16% pravděpodobností současně koupí zboží s ID 1172 a 2372. Pokud si zákazník koupí zboží s ID 2272 a 2972, je 60% pravděpodobnost, že koupí také produkt s ID 2372.

Asociační pravidla
Tab. 2: Asociační pravidla

Prohlédněme si některá asociační pravidla v grafické podobě na obrázku 1. Vidíme například, že se často společně kupují komponenty s ID 2372 a 1172, a komponenty s ID 2372 a 2272. Pokud zákazník koupí komponentu s ID 1172, je velká pravděpodobnost, že pořídí také produkt s ID 2372 (nákup v obráceném sledu je méně pravděpodobný).

Grafické znázornění vybraných asociačních pravidel
Obr. 1: Grafické znázornění vybraných asociačních pravidel - rule graph

Také další graf přehledně popisuje některé vybrané asociace – viz obrázek 2. „Web graph“ navíc ukazuje, že nejžádanější je náhradní díl s ID 2372 nebo například že se častěji kupují náhradní díly s ID 2372 a 2273 dohromady než zvlášť (lift = 1,2 viz tabulka 2).

Grafické znázornění vybraných asociačních pravidel
Obr. 2: Grafické znázornění vybraných asociačních pravidel - web graph


Nyní se podívejme na data sekvenčně. Zohledníme tedy pořadí, v jakém jednotliví zákazníci zboží v rámci sledovaného období nakupovali. Výsledkem mohou být sekvenční pravidla uvedená v tabulce 3. Již víme, že komponenta s ID 2372 je nejžádanějším náhradním dílem. Ze sekvenční analýzy navíc vyplývá, že pokud již zákazník komponentu s ID 2372 koupil, objedná další stejný díl s 32% pravděpodobností. Vybraná sekvenční pravidla jsou graficky znázorněna na následujícím obrázku 3.

Sekvenšní pravidla
Tab. 3: Sekvenční pravidla

Můžeme si například všimnout poměrně vysoké pravděpodobnosti (37%), že zákazník, který koupil komponentu s ID 3174, koupí následně také náhradní díl s ID 2372.

Grafické znázornění vybraných asociačních pravidel
Obr. 3: Grafické znázornění vybraných asociačních pravidel - rule graph

Závěr

Uvedené postupy ukazují cestu, jak odhalit zajímavé vzorce chování zákazníků. Nyní dokážeme popsat, které komponenty jednotliví odběratelé za sledované období nakoupili a v jakém pořadí se nákupy uskutečnily. Abychom tato pravidla mohli použít jako podklad pro tvorbu strategie produktového managementu, je samozřejmě nutné dobře znát věcnou povahu dat. Nalezení významných rysů v chování stávajících zákazníků pak může výrazně přispět například k tvorbě dobrých predikcí chování nových zákazníků nebo ke zvýšení efektivity marketingových kampaní.

Petra Beranová
Autorka působí jako senior consultant
ve společnosti StatSoft CR

Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.

Inzerce

Pět způsobů, jak AI změní náš svět k nepoznání

AI_analyzuje_data-PR.jpegUmělá inteligence (AI) a strojové učení (ML) přináší už více než 10 let podnikům i výzkumníkům stále možnosti. Ať už jde o využití prediktivní analýzy k předvídání údržby zařízení, nástroje počítačového vidění, které dávají oči robotům na automatických montážních linkách, nebo digitální dvojčata sloužící k simulaci fungování továren, měst, a dokonce i celých ekonomik, seznam aplikací poháněných AI je dlouhý a stále se prodlužuje.