facebook LinkedIN LinkedIN - follow
IT SYSTEM 10/2000

Systémy pro poskytování informací

Data Mining jako součást řešení od SAS Institute

Jaroslav Půlpán,, SAS





Úkolem systémů pro poskytování informací (information delivery) není automatizace opakovaných procesů či transakcí, ale sběr a analýza nashromážděných dat, extrakce užitečných informací zakončená jejich presentací ve formě vhodné pro obchodní či odborné uživatele. Hlavní principy výkaznictví (rozdělení v kategorie, agregace ve skupinách a třídění dle nejrozličnějších statistik) jsou zastoupeny v systémech typu OLAP (on-line analytical processing), které nabízejí pohled na data z různých dimenzi, včetně interaktivních grafů. Právě OLAP technologie, přes svoji nepochybnou hodnotu pro účely výkaznictví a sledování historie, ukazuje limity přístupu k datům, kdy uživatel musí sám v datech vyhledat užitečnou informací. Naopak, všeobecným rysem dolování dat, je cílená snaha o automatické nalezení závislostí v datech.

Typickým příkladem řešení, které může využít návaznosti všech těchto komponent je oblast řízení vztahů se zákazníky (CRM).

Cílem dolování dat může být např. nalezení návodu (modelu) koho oslovit s jakou nabídkou. Základem pro vývoj modelu jsou historická data z datového skladu, cílená nabídka může být pak nabídnuta prostřednictvím call-centra či personalizované WEB stránky.

Enterprise Miner
Systém SAS/Enterprise Miner od společnosti SAS Institute zapadá do řady produktů určených pro budování systémů na poskytování informací. Jeho kolegy je pro řízení datového skladu SAS/Warehouse Administrator, k uložení velkého objemu dat je určen SAS Scalable Performance Server a jako aplikační server pro internetové aplikace je k dispozici SAS/IntrNet server.

Architektura
Enterprise Miner (SAS EM) je díky klient-server architektuře předurčen pro nasazení v rozsáhlých podnikových řešeních. Základem architektury pro řešení dolování dat je SAS Enterprise Miner server, který má přímý přístup do podnikového datového skladu. Pokud analyzovaná data nejsou uspořádána, lze využít jiných technologií pro zpřístupnění dalších datových zdrojů (přímý přístup do databází ORACLE, DB/2, Informix atd., ale i do systémů SAP/R3).

SAS EM server ukládá analyzovaná data do specializovaného formátu (data minig database - DMDB) optimalizovaného pro algoritmy dolování dat. Vedle sdílení dat je jeho úkolem poskytovat výpočetní výkon několika klientským stanicím, které mohou provádět všechny analýzy v režimu bez připojení na server (stand-alone režim), což se s výhodou používá pro vývoj a testování s malým vzorkem dat, pro zpracování rozsáhlých dat je lépe využít výkon serveru.

SAS Enterprise Miner server ve verzi 3 je možno provozovat na platformách Windows NT server, HP-UX, Compaq True64 Unix a SUN Solaris. Nová verze 4 rozšiřuje tento seznam o Windows 2000 a mainframe systém MVS ESA. SAS Enterprise Miner klient lze provozovat na Windows NT či Windows 95/98.

Uživatelské prostředí
Výhodou nasazení SAS Enterprise Miner je zrychlení realizace analýz. Toho je dosaženo omezením manuálního psaní programů, místo čehož program používá pro definici analýz koncept procesních diagramů, které se skládají z nódů (ikonek) a jejich spojnic. Každý nód představuje určitý krok analýzy, spojnice definují jejich souslednost (obr. 2). Uživatel umísťuje nódy do procesního diagramu a pomocí myši je propojuje. Spuštěním konkrétního nódu se automaticky spustí všichni jeho předchůdci, přičemž několik procesních diagramů lze uspořádat do projektu. Program rovněž podporuje současnou práci několika uživatelů na jednom projektu.

Nódy zahrnují například přístup k datům, vzorkování dat, grafy, modelování, shlukování, neuronové sítě a vyhodnocení modelů. Jedním z možných nódů je i vnořený procesní diagram, což umožňuje standardizovat části analýz přes několik projektů (např. standardní vzorkování dat).

Přestože uživatel nemusí, díky procesním diagramům, psát programy, je vždy možno použít nódu SAS code, v kterém lze pomocí jazyka SAS Language naprogramovat co není obsaženo v standardních nódech. Pokud i toto nestačí lze, díky API rozhraní, doprogramovat celý nový nód obsahující interaktivní interface s výstupy.

Metody dolování dat
Hlavní analytické metody implementované v SAS Enterprise Miner zahrnují prediktivní modelování, shlukovou analýzu (clustering) a analýzu asociací.

Prediktivní modelování je nejčastěji používaná metoda dolování dat. Na základě historických dat se odvozuje funkce (model) popisující pravděpodobnost, že nastane nějaká modelovaná událost. Příkladem modelované události může např. být positivní odezva zákazníka na nabídku dalšího produktu. Model pak, na základě historických dat o oslovených zákaznících a jejich reakcí, popisuje, jak se pravděpodobnost odezvy mění dle věku, vzdělání, skladby již zakoupených produktů atd.

Pro prediktivní modelování je v SAS Enterprise Miner k dispozici několik technik: regrese, rozhodovací stromy (obr.3) a neuronové sítě. Každá z těchto technik v sobě zahrnuje více algoritmů, např. pro regresní model lze vybírat z několika strategií hledání minima apod. Dále jsou k dispozici algoritmy pro vytváření rozhodovacích stromů (CHAID, CART, C4.5) a kriterií pro omezení jejich složitosti (prunning). V případě neuronových sítí lze specifikovat architekturu i typ aktivačních funkcí (např. MLP, GLIM, RBF).

Shluková analýza slouží k rozdělení vstupních dat na homogenní skupiny s podobnými charakteristikami. Preferovaným algoritmem shlukové analýzy (segmentace) určeným pro rozsáhlé objemy dat je k-means algoritmus, pro menší objemy dat lze použít i hierarchické metody shlukování. Pro hledání shluků (segmentů) lze použít i specializované architektury neuronových sítí, k dispozici jsou sítě realizující Kohonenovy samo-organizující se mapy (SOM) a vektorovou kvantizaci (VQ).

Analýza asociací slouží k vyhledávání položek, které se ve vstupních datech vyskytují častěji pohromadě, typickým příkladem použití této techniky je tzv. analýza nákupního koše. SAS Enterprise Miner podporuje i vyhledávání sekvencí, kdy předmětem analýzy je i pořadí prohledávaných položek.

Výstupy z dolování dat
Většina nódů SAS Enterprise Miner zobrazuje výstup ve formě grafů a tabulek, které jsou presentovány ve formě srozumitelné i obchodním uživatelům. Pro celkovou presentaci a dokumentaci zpracovaní procesního diagramu lze pomocí nódu Reporter vygenerovat hierarchii HTML stránek obsahujících nastaveni nódů v procesním diagramu a většinu jejich výstupů.

Za další výstup dolování dat je nutno považovat i program realizující výpočet nalezeného modelu. Ten slouží k ohodnocení (skórování) nových pozorování. Výsledkem skóringu může být. např. výběr produktu, který bude nabídnut novému zákazníkovi. Produkt je vybrán na základě shodných charakteristik nového zákazníka s modelem. Takovéto využití výsledného skórovacího kódu v systémech přímé komunikace se zákazníkem se stává jedním z rysů nastupující generace elektronických kanálů. Nasazení on-line skóringu např. v podpůrných systémech call center (do jaké skupiny zařadit nového zákazníka), či v systémech pro on-line hodnocení žádostí o úvěr umožňuje optimální rozhodnutí při zachování odezvy v reálném čase. SAS Enterprise Miner poskytuje skórovací kód v jazyce SAS Language nebo jazyku C. Do budoucna se plánuje i export do jazyka Java.

Závěr
Zejména v poslední době se objevují aplikace dolování dat v souvislosti s nasazováním datových skladů a jejich využitím např. pro řízení vztahů se zákazníky (CRM). Využití dolování dat v tomto prostředí je mnohostranné, od výběru kombinace produktů pro nalezenou homogenní skupinu zákazníků, přes využití prediktivního modelování např. pro prevenci odchodu zákazníků až po výběr doplňkového produktu (cross-selling) či ocenění celkového přínosu zákazníka (life time value modeling).

Zvláště u podniků působících v konkurenčním prostředí telekomunikace či financí, se otvírají nové možnosti v oblastech marketingu, řízení distribučních kanálů či analýzy podvodů. S tím související zavádění přímého elektronického obchodování (e-bussiness) nejen zjednoduší sběr dat o požadavcích zákazníků, ale bude vyžadovat i mnohem kratší cyklus pro jejich analýzu.

Aplikace dolování dat se však dále začíná využívat i v oblasti analýzy návštěvnosti WWW serverů či v nových oblastech medicíny (vývoj nových léků nebo analýza genetické informace v rámci projektu zmapování lidských genů).


www.sas.cz
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.


Inzerce

Modernizace IS je příležitost přehodnotit způsob práce

IT Systems 4/2025V aktuálním vydání IT Systems bych chtěl upozornit především na přílohu věnovanou kybernetické bezpečnosti. Jde o problematiku, které se věnujeme prakticky v každém vydání. Neustále se totiž vyvíjí a rozšiřuje. Tematická příloha Cyber Security je příležitostí podívat se podrobněji, jakým kybernetickým hrozbám dnes musíme čelit a jak se před nimi můžeme chránit. Kromě kybernetické bezpečnosti jsme se zaměřili také na digitalizaci průmyslu.