- Přehledy IS
- APS (20)
- BPM - procesní řízení (22)
- Cloud computing (IaaS) (10)
- Cloud computing (SaaS) (33)
- CRM (51)
- DMS/ECM - správa dokumentů (20)
- EAM (17)
- Ekonomické systémy (68)
- ERP (79)
- HRM (27)
- ITSM (6)
- MES (32)
- Řízení výroby (36)
- WMS (29)
- Dodavatelé IT slueb a řeení
- Datová centra (25)
- Dodavatelé CAD/CAM/PLM/BIM... (39)
- Dodavatelé CRM (33)
- Dodavatelé DW-BI (50)
- Dodavatelé ERP (71)
- Informační bezpečnost (50)
- IT řeení pro logistiku (45)
- IT řeení pro stavebnictví (26)
- Řeení pro veřejný a státní sektor (27)
ERP systémy
CRM systémy
Plánování a řízení výroby
AI a Business Intelligence
DMS/ECM - Správa dokumentů
HRM/HCM - Řízení lidských zdrojů
EAM/CMMS - Správa majetku a údrby
Účetní a ekonomické systémy
ITSM (ITIL) - Řízení IT
Cloud a virtualizace IT
IT Security
Logistika, řízení skladů, WMS
IT právo
GIS - geografické informační systémy
Projektové řízení
Trendy ICT
E-commerce B2B/B2C
CAD/CAM/CAE/PLM/3D tisk![]() | |
| Přihlaste se k odběru newsletteru SystemNEWS, který kadý týden přináí výběr článků z oblasti podnikové informatiky | |
![]() | |
Segmentace zákazníků a churn analýza
O standardních úlohách a projektech v oblasti data science (DS), mezi ně patří i segmentace zákazníků a churn analýza, bylo ji napsáno mnoho. Větinou se vak jedná o obecné obchodní formulace a málokdo u ví, co vechno se ve skutečnosti skrývá za samotnou realizací takového komplexního DS projektu, jaká je jeho časová náročnost a co vechno musí datový vědec, nebo postaru datový analytik, řeit a s čím se musí popasovat. DS projekty mohou mít mnoho společného, avak kadá realizace je specifická a vyaduje individuální přístup, aby byly splněny poadavky zadavatele. Pro představu si postup realizace DS projektu představíme na příkladu telekomunikační společnosti (TS). Postupovat budeme v jednotlivých fázích podle metodologie CRISP-DM.


Obr. 1: Schéma metodologie CRISP-DM
1. fáze: Business Understanding
Z osobního setkání se zástupci TS vyplynulo, e mají zájem realizovat personalizované marketingové kampaně zaměřené na skupiny klientů podle jejich vyuitého objemu dat, provolaných minut a počtu odeslaných textových zpráv za poslední tři měsíce. Pro řeení úlohy tedy bude vytvořen segmentační model, jeho úkolem bude rozdělit klienty do několika skupin podle zvolených charakteristik tak, aby si klienti v jedné skupině byli podobní a naopak z rozdílných skupin byli odliní vzhledem ke zvoleným charakteristikám. Na kadou skupinu pak budou moci být vytvářeny specializované cílené marketingové kampaně (kompetence TS). Poaduje se také najít optimální malý počet skupin a popsat jejich charakteristiku. Zařazování klientů do skupin bude probíhat měsíčně a zároveň se budou sledovat přechody klientů mezi skupinami oproti předchozímu měsíci. Na měsíční bázi se bude také sledovat zastoupení jednotlivých skupin a kvalita segmentačního modelu v čase. Výsledky budou kadý měsíc zobrazovány a aktualizovány v přehledném reportu. Notifikace o aktualizaci reportu bude zasílána na vybrané e-mailové adresy.
Dále TS chce realizovat retenční kampaně zaměřené na sníení odchodu klientů ke konkurenci, konkrétně u klientů, u kterých je měsíc do konce smlouvy a je vysoká pravděpodobnost, e během tří měsíců po jejím skončení podají ádost o přenos čísla k jinému operátorovi. Pro tento účel bude vytvořen churn model na základě historických dat o chování klientů. Z něho budeme moci identifikovat a popsat charakteristiky, které zvyují nebo sniují pravděpodobnost přenosu čísla, a tedy kteří klienti a jejich čísla jsou nejvíce rizikoví. Na rizikové klienty budou pravidelně vytvářeny retenční kampaně a model bude implementován do interního systému (kompetence TS), aby prodejce mohl při komunikaci s klientem vidět jeho rizikovost ve formě barevného semaforu. Na měsíční bázi bude probíhat skórování vytvořeným churn modelem, sledování jeho kvality a míry odchodu klientů (churn rate). Výsledky budou kadý měsíc zobrazovány a aktualizovány v přehledném reportu, včetně notifikace o jeho aktualizaci, která bude zasílána na vybrané e-mailové adresy.
Při realizaci projektu se spolupracuje s experty TS. V úvodních dvou fázích pracovníci poskytují podrobné informace o procesech a datech, kterými disponují, včetně způsobu jejich ukládání a popisu. Časová náročnost této fáze je odhadována na 5 MD (člověkodnů).
2. fáze: Data Understanding
TS disponuje mnostvím datových zdrojů, které lze vyuít při budování churn modelu a při výpočtu potřebných charakteristik pro segmentační model. Jedná se o datové zdroje s identifikačními a sociodemografickými údaji o klientech, informace o kontaktech s TS, vyuívání hlasových, datových, textových a dalích slueb, pohybu na webu a vyuívání portálu nebo aplikace, podrobný popis celé historie klientů včetně jejich produktů, faktur, upomínek atd.
Seznámili jsme se s daty, jejich strukturou a významem jednotlivých atributů. Zjistili jsme rozsah dat, způsob jejich ukládání, typ proměnných a jejich kódování, číselníky. Provedl se datový audit. Časová náročnost 20 MD.
3. fáze: Data Preparation
Časově nejnáročnějí fáze pokrývající vechny činnosti potřebné k vytvoření finální datové matice, která vstupuje do modelování. Vzhledem k potenciálu dalích úloh do budoucna, pravidelnému měsíčnímu skórování, vyuívání dat v reportech a integraci se vytvořil DS datový sklad, který je pravidelně aktualizován na měsíční bázi. Při tvorbě a aktualizaci datového skladu se z datových zdrojů vyuívají operace pro výběr, čitění, vytváření (např. výpočtem, agregací nebo restrukturalizací), slučování (vedle sebe nebo pod sebe) a formátování dat. Pro segmentační model slouí datová matice o třech atributech, protoe vak nejsou měřeny ve stejných jednotkách, a tedy na stejné kále, budou před vstupem do modelu standardizovány.
Pro churn model vyuíváme datovou matici, která obsahuje atributy odpovídající stavu měsíc před ukončením smlouvy klienta. Atributy pro vstup do modelu zahrnují příznaky produktů klienta, dobu vztahu klienta, provolané minuty do jednotlivých sítí, objem vyuitých dat, sumu zaplacenou nad rámec pauálu, věk, pohlaví, kraj, rodinný stav, jazyk klienta, příznaky volání z nebo na infolinku konkurence, počet přeruených hovorů, počet stíností atd. Odvozena byla také cílová proměnná, zda během tří měsíců po skončení smlouvy dojde k podání ádosti o přenos čísla k jinému operátorovi. V případě potřeby se realizovala i kategorizace a transformace dat. Před modelováním se datová matice rozdělila na tréninkovou mnoinu, na které se model vytváří, a testovací mnoinu, která slouí k vyhodnocení jeho kvality. Časová náročnost 75 MD.
4. fáze: Modeling
Porovnávali jsme různé modelovací algoritmy s různým nastavením parametrů, ale vzhledem k porovnatelné kvalitě a poadavku interpretovatelnosti byla pro churn model zvolena logistická regrese a algoritmus TwoStep pro segmentační model.
Optimálním algoritmem byly stanoveny čtyři klastry. Obrázek níe uvádí průměrné hodnoty atributů pro jednotlivé klastry, které jsou barevně odlieny pro snadnějí interpretaci. V prvním klastru jsou klienti, kteří mají v průměru nízké vechny hodnoty atributů oproti jiným klastrům. Druhý klastr je charakteristický nejvyím průměrným vyuitím objemu dat, třetí klastr nejvyími průměrnými provolanými minutami a čtvrtý klastr nejvyím průměrným počtem odeslaných textových zpráv.

Obr. 2: Průměrné hodnoty v jednotlivých klastrech
Dalí obrázek představuje odhad regresních koeficientů churn modelu. Z nich je vidět, e nejrizikovějí klienti a čísla pro podání ádosti o přenos čísla k jinému operátorovi jsou ti s krátkou dobou čísla u TS, krátkou dobou klienta u TS, klienti s pronájmem jakéhokoliv zařízení, klienti bez čísla s moností dobíjení kreditu, klienti s vysokým počtem provolaných minut, s existencí hlasové schránky, klienti s internetem od TS a s velkým objemem vyuitých dat. Časová náročnost 5 MD.

Obr. 3: Odhad regresních koeficientů churn modelu
5. fáze: Evaluation
Kvalita segmentačního modelu podle průměrné siluety je vyí ne 0,5. To značí uspokojivý model. Svědčí o tom i rozdíly mezi klastry podle jejich charakteristik. Churn model je podle Giniho evaluační metriky na tréninkové i testovací mnoině porovnatelný, nedochází k jeho přeučení a je nad hodnotou 0,5, co představuje dobrý model. Postup celého řeení byl před jeho nasazením zkontrolován. Fáze evaluace trvala 2 MD.
6. fáze: Deployment
Řeení je integrováno do rozhodovacích procesů TS. Pro oba modely je nastaveno automatické skórování na měsíční bázi spolu s aktualizací DS datového skladu.
Hlavní výstup segmentačního modelu je databázová tabulka, která obsahuje identifikátor měsíčního snímku, identifikátor klienta, hodnoty vstupních atributů modelu, zařazení do klastru v aktuálním a předchozím snímku. Slouí jako podklad pro cílené marketingové kampaně.
Pro churn model je primárním výstupem databázová tabulka s identifikátorem měsíčního snímku, identifikátorem klienta, telefonním číslem a pravděpodobností podání ádosti o přenos čísla k jinému operátorovi během tří měsíců po skončení smlouvy. Tento výstup slouí jako podklad pro retenční marketingové kampaně a pro integraci rizikovosti klienta do interního systému formou barevného semaforu.
Na závěr byla vytvořena projektová dokumentace a prezentovány dosaené výsledky. Celková náročnost projektu je 120 MD. Někdy je schopen projekt realizovat jeden člověk, ale typicky je to týmová spolupráce kvalifikace a kompetence jednotlivých členů týmu.
![]() |
Mgr. Ing. Milan Machalec Autor článku je senior data scientist ve společnosti ACREA SR. |




















