facebook LinkedIN LinkedIN - follow
PříLOHA 9/2002

Witness MINER

Praktické řešení pro Data Mining

Jan Daněk


Britská společnost Lanner Group se zaměřuje na vývoj programových nástrojů pro modelování, analýzu a optimalizaci podnikových procesů. Nejnovějším přírůstkem do její programové sady Witness Suite je Witness MINER, moderní nástroj pro získávání znalostí ze souborů dat (Data Mining). Cílem tohoto článku je představení tohoto produktu a uvedení příkladu jeho využití při analýze dat ve výrobní oblasti.


Díky rozvoji využití informačních systémů podniky získávají a ukládají velké množství operativních údajů týkajících se jejich aktivit. Přesnost a správnost rozhodování vedoucích pracovníků závisí kromě jiného i na schopnosti tyto údaje kvalitně analyzovat a interpretovat. Witness MINER je nejen nástrojem pro interaktivní provádění takovýchto analýz, ale poskytuje i projektový rámec pro jejich systematické využití.

Získávání znalostí ze souborů dat
V mnoha případech jsou v podnikových databázích a datových skladech ukryty informace o dosud neznámých zajímavých závislostech mezi sledovanými veličinami a jevy. Transformací dat do srozumitelné formy a odhalování takovýchto zákonitostí se zabývá metoda získávání znalostí ze souborů dat - v angličtině označovaná Data Mining, popřípadě Knowledge Discovery in Databases (KDD). K odhalování závislostí a prezentaci získaných znalostí do formy srozumitelné člověku jsou využívány zejména statistické metody, algoritmy umělé inteligence a různé metody vizualizace dat.
 


Proces získávání znalostí ze souborů dat, na kterém je založen Witness MINER

Na obrázku je proces získávání znalostí znázorněn tak, jak je implementován v programu Witness MINER. Pro každou fázi tohoto procesu existují v programu příslušné nástroje a funkce:

Specifikace problému
Na začátku každého projektu KDD musí být dobrá představa o tom, co je jeho cílem a zda se soubor dat, který máme k dispozici, vůbec hodí k jeho dosažení, zda obsahuje údaje o určitých příčinných jevech a jejich následcích.

Napojení na datové zdroje
Soubor dat, který máme k dispozici, zpřístupníme analytickému nástroji. Witness MINER podporuje napojení na všechny datové zdroje přístupné danému operačnímu systému.

Čištění dat
Zejména u velkých a neúplných souborů dat je nutná jejich úprava tak, aby byly vhodné k dalšímu zpracování. Witness MINER nabízí několik nástrojů pro vzorkování, výběr záznamů a ošetření chybějících hodnot. Na rozdíl od předzpracování, u něhož je nastavení příslušných parametrů obvykle součástí iterativního procesu, se u čištění dat obvykle jedná o jednorázovou aplikaci určitého algoritmu.

Předzpracování
Techniky použité u předzpracování umožňují přípravu souboru dat tak, aby následná analýza byla co nejefektivnější. Jsou rozděleny do dvou hlavních skupin. Analýza hlavních komponent umožňuje výběr těch znaků, které obsahují statisticky významné informace, diskretizace umožňuje případnou konverzi spojitých číselných hodnot na diskrétní.

Data Mining
Získávání znalostí a odhalování zákonitostí samotné. Techniky, které využívá Witness MINER, zahrnují jak klasické techniky používané pro Data Mining (klasifikace, segmentace, rozhodovací stromy a podobně), tak i unikátní techniky zjišťování pravidel (příčinných vztahů) mezi jednotlivými veličinami.

Vyhodnocení
Zjištěná pravidla je možné ukládat, organizovat a ověřovat pomocí sady vyhodnocovacích nástrojů.

Interpretace a využití znalostí
Interpretaci výsledků usnadňuje několik typů reportů, které poskytují různé grafické i tabulkové pohledy na soubor dat i výsledky aplikace zjištěných pravidel.
 


Uživatelské rozhraní programu Witness MINER. Pracovní plocha je grafickou reprezentací
procesu KDD. Jednotlivé funkce programu se do daného projektu zařadí jednoduše tak,
že se ikona příslušné funkce (uzlu) přenese z nástrojového řádku na pracovní plochu
a napojí na logicky související ikonu předchozí funkce. Čáry mezi ikonami uzlů definují
tok dat mezi jednotlivými aktivitami

Aplikační možnosti Witness MINER
Získávání znalostí ze souborů dat má obrovský aplikační potenciál, lze je využít pro širokou třídu problémů. V podmínkách výrobního podniku se jedná například o následující aplikace:

. Tvorba pravidel směřujících k plynulejšímu provozu skladů
. Predikce poruch zařízení, lepší alokace zdrojů při preventivní údržbě
. Odhalování výkonnostních a kvalitativních vztahů v dodavatelských řetězcích
. Detekce příčin, proč dochází ke zvýšené frekvenci reklamací určitého typu
. Segmentace zákazníků podle jejich charakteristik
. Lepší cílení prodejních a marketingových aktivit
. Vývoj produktů lépe splňujících představy cílové skupiny zákazníků

V dalších oborech se tato metoda uplatňuje například při vyhodnocování pojišťovacích rizik a detekci podvodů s kreditními kartami ve finančnictví, zjišťování vzájemných účinků a vedlejších vlivů léčiv ve zdravotnictví a při segmentaci trhu a využití principu cross-selling v obchodě a službách.

Příklad - zjištění příčin poruchovosti ve výrobě

Situace:
Výrobní podnik vyrábí na šesti výrobních linkách pět druhů výrobků. Ve výrobním informačním systému jsou o každém výrobku k dispozici následující údaje: typ výrobku, linka, na které byl výrobek vyroben, počet součástek, počet součástek nakupovaných u externích dodavatelů, rozměry výrobku, doba, kterou výrobek strávil ve výrobě, výsledky šesti postupných testů A-F, naměřené tolerance u testů A až C, výsledek výstupní kontroly (test Final). Vedení podniku chce přijmout účinná opatření za účelem snížení poruchovosti výrobků, proto potřebuje odhalit její příčiny.
 


Zobrazení pracovního prostředí programu s příslušným proudem KDD

Seznámení se s daty a předzpracování dat:
Postup zjišťování znalostí z tohoto souboru dat je znázorněn proudem KDD na obrázku. Po napojení zdrojového uzlu na příslušná data je vhodné se seznámit s jejich strukturou a získat představu o tom, které komponenty mají největší vliv na sledovaný výstup. V našem případě je sledovaným výstupem výsledek výstupní kontroly. Pro předběžnou analýzu dat slouží uzly Zobrazení a Statistika, které uživateli poskytují tabulkový pohled na "syrová" data a přehled základních charakteristik jednotlivých polí v databázi, včetně kontroly chybějících hodnot a podobně. Uzel Hlavní komponenty poskytuje informace o tom, která pole v souboru dat mají největší vliv na změny sledovaného výstupu. Do dalších analýz je zejména v případě velkých souborů dat vhodné zařadit pouze pole s největším vlivem na výstup. Uzel Analýza vazeb poskytuje další pohled na soubor dat. U vyváženého souboru zobrazuje tabulkově počet záznamů, které mají shodné / různé hodnoty vybraných hlavních komponent. Je tak možné pro další analýzu eliminovat ta pole, která jsou na sobě závislá, a identifikovat ty veličiny, které mají největší vliv na celkový výsledek. V našem případě má na výsledek výstupní kontroly velký vliv počet součástek nakupovaných od dodavatelů.
 


Analýza hlavních komponent v daném souboru dat

Data Mining:
Uzel Discovery je s použitím heuristických optimalizačních algoritmů schopen nalézt vztahy mezi poli v souboru dat. Použitý algoritmus vyžaduje od uživatele zadání požadovaného stupně pokrytí a přesnosti, s jakou nalezené pravidlo vystihuje vztahy mezi daty, a maximální počet polí, které mohou být obsaženy v jednom pravidle. Na obrázku je zobrazen postup hledání nejlepších pravidel, ze zobrazením cílové optimalizační funkce. Vzhledem k tomu, že soubor dat není příliš rozsáhlý a strukturně komplikovaný, je možné algoritmy uzlu Discovery na tento soubor dat aplikovat přímo, popřípadě soubor pouze vyvážit - v původním souboru dat je výskyt výstupní kontroly "FAIL" relativně malý, vyhledávací algoritmy fungují lépe, když pro analýzu výběrem vhodných záznamů vyrovnáme počet úspěšných a neúspěšných pokusů.
 


Analýza vazeb mezi poli v souboru dat

Uzel Pravidla slouží k ukládání nalezených pravidel a k jejich pozdějšímu ověření na testovacím souboru dat.

Vyhodnocení a implementace znalostí:
S využitím některých funkcí programu Witness MINER bylo zjištěno:

. 60% výrobků, které neprošly standardním testem B, neprošlo ani výstupní kontrolou.

. Poruchovost výsledných výrobků je silně závislá na tom, zda si podnik vyrábí všechny součástky sám, nebo je nakupuje u dodavatelů.
Na základě těchto znalostí byla přijata tato opatření:
. Modifikovat test v místě B tak, aby bylo možné vyřadit výrobky určené k přepracování již v počátečním stadiu výroby.
. Zavést rigidní kontrolu kvality všech součástí nakupovaných u dodavatelů.
 


Uzel Discovery - průběh hledání člověku srozumitelných pravidel

Závěr
Získávání informací z rozsáhlých souborů dat je obecně velmi náročná činnost. Podobně jako u jiných programů se firmě Lanner povedlo vytvořit unikátní nástroj, který je prakticky využitelný vedoucími pracovníky, kteří mohou kreativním způsobem nacházet skryté závislosti v datech vztahujících se k procesům, které řídí a využít je k predikci určitých jevů a pro své rozhodování. Odborníci v oblasti statistických metod mohou algoritmy obsažené v programu upravovat a dosáhnout tak další zvýšení kvality "vydolovaných" znalostí.

Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.


Inzerce

Transformace bankovnictví a pojišťovnictví v éře umělé inteligence

Umělá inteligence se stala hy­ba­te­lem digitální revoluce ve finančním sektoru. Přináší bezprecedentní možnosti automatizace, personalizace služeb a optimalizace rizik. Přestože potenciál AI je enormní, jen malá část bank má připravenou komplexní strategii pro její implementaci.