facebook LinkedIN LinkedIN - follow
IT SYSTEM 10/2000

IBM DB2 Intelligent Miner for Data

Jan Pařízek [ jparizek (zavináč) cz (tečka) ibm (tečka) com ]





IBM DB2 Intelligent Miner for Data (IM) je softwarový produkt určený pro analýzu dat z datového skladu či trhu metodou nazývanou "data mining". Cílem a úkolem IM je odhalovat ve velkých objemech dat nebo v omezeném časovém intervalu, informace, které nelze za uvedených podmínek v praxi, při požadované míře spolehlivosti, jinak získat. Oblasti použití produktu Intelligent Miner jsou například analýzy a řízení trhu, analýzy rizik či odhalování podvodů v peněžnictví.

Architektura, organizace a aplikace
Jádro produktu Intelligent Miner je vyvíjeno v IBM laboratořích pro strojní učení a jeho základní algoritmy vycházejí z jejich know-how, doplněné o statistické funkce a uživatelské rozhraní napsané v jazyku Java. Technologie IM je typu klient/server a je optimalizována na zpracování velkých objemů dat. S produktem se nejlépe pracuje nad daty uloženými v databázi IBM DB2, je však vybaven i pro přímé načítání sekvenčních souborů. Na jiné databázové systémy (Oracle, Informix, Sybase, Microsoft) se lze připojit přes produkt IBM Data Joiner.

Intelligent Miner lze aplikovat interaktivně z pracovní plochy anebo "provozně" pomocí API knihovny C++, která je součástí standardní dodávky, v rámci naprogramované aplikace. Aplikace, včetně výsledků, jsou ukládány ve vlastní databázi jejíž obsah se zobrazuje na pracovní ploše. Základní postup interaktivní aplikace IM po otevření či založení nové databáze je následující:

1. Nejprve se na pracovní ploše, definují data, která budeme analyzovat. V případě databázových tabulek lze provést i potřebné úpravy dat na základě menu Processing, například filtrovat údaje z velké tabulky do analyzovatelných pohledů.

2. Z menu Mining nebo Statistics se zvolí a parametrizuje aplikace funkce či algoritmu na již připravená data nebo se, podobně jako v prvním bodě, určí výstupní data Intelligent Miner. Takto definovaný data mining se provede a výsledky se zobrazí a uloží.

3. Po výpočtu nastává samotná analýza zobrazených výsledky a eventuelně vytvořených dat, které jsou specifické k jednotlivým funkcím programu.

4. Jsou-li získané výsledky dostatečné, končí celý proces uložením databáze. V případě potřeby dalších pohledů a analýz se iterativně pokračuje od prvního z bodu nebo se zpracování z bodů 1 až 3 může spojit do tzv. Sequence volané jednou ikonou.


Funkce a algoritmy
Některé funkce Intelligent Miner lze provádět pomocí dvou různých postupů. Nyní si představme na příkladech jednotlivé postupy a použité funkce.

1. Asociace
představují hledání pravidel pro výskyt skupin o nějaké společné vlastnosti v datech. Například, budeme-li analyzovat seznam nakoupeného zbožím v našem obchodě, jsou výsledkem této funkce pravidla, která nám informují o tom, jestliže se vyskytne v "nákupním košíku" zboží druhu A a B (tj. je zakoupeno jedním zákazníkem, při jednom nákupu), pak tam bude, s určitou pravděpodobností, i zboží C. Důvěryhodnost takového závěru je četnost (pravděpodobnost) výskytu A,B a C vzhledem k četnosti výskytu A a B. Takového zjištění lze například využít při oslovení budoucích zákazníků s rozšířenou nabídkou zboží C, pokud zjistíme, že mají zájem o skupinu A a B. Datům lze v pravidlech dát vhodná synonyma v hierarchii - Taxonomy.

2. Sekvenční vzory
nám dovolují vyhledání všech výskytů podobných subsekvencí v databázi. Analogicky k předchozím asociacím se hledá výskyt pravidla: jestliže nějaký zákazník v čase T1 nakoupí zboží A a B, pak týž zákazník následně v čase T2>T1 nakoupí i zboží C.

3. Shluková analýza
pracuje na základě demografického algoritmu, tj. hledají se shluky záznamů (např. o nakupujících) s určitou podobností na základě Condorsetova kriteria (suma všech podobností párů záznamů ve shluku minus suma všech podobností párů záznamů v jiných shlucích). Podobnost číselných hodnot se určuje jako intervalová záležitost, podobnost kategorií je buď shoda nebo rozdíl.

Taková analýza je zobrazena v grafu a v protokolu se statistickými charakteristikami nalezených shluků. Numerické hodnoty (věk nakupujících, cena nakoupeného zboží) jsou zobrazeny histogramy s relativní četností hodnot v danému klastru.

Pro srovnání jsou na pozadí relativní četnosti v celém souboru.

Sloupce s kategoriemi (tj. nečíselné charakteristiky jako je např. pohlaví nakupujícího) jsou zobrazeny koláčovými grafy opět s vyznačením relativní četností hodnot. Četnosti v celém souboru dat jsou zobrazeny ve vnějším mezikruží a uvnitř kruhu je složení populace v daném shluku (na dané podmnožině).

4. Shluková analýza na základě neuronové sítě
Pro stejný účel jako v předchozí funkci se užívá Kohonenova mapovací neuronová síť, která je však určena pouze pro sloupce s numerickými hodnotami a počet shluků se zadává předem. Do shluků ve výstupní vrstvě se zařazují vstupy na základě váhy z eukleidovsky definované vzdálenosti, tj. pythagorova věta aplikovaná na výpočet vzdálenosti v n-rozměrném prostoru uvažovaných sloupců - souřadnic analyzované tabulky.

5. Podobnost sekvencí transakcí v čase
Software vyhledává předvídatelná chování zákazníků v čase na základě podobnosti s již proběhnutým výskytem události, na základě čehož lze předvídat další pokračování. Základní parametry analýzy jsou přípustná tolerance, velikost časového okna a minimální relativní délka shody a maximální počet výjimek. Výsledkem jsou grafy porovnávaných sekvencí s vyznačenými shodnými úseky.

6. Stromová klasifikace
vytváří modely ze známých dat s údaji pro jejich analýzu a možnost následného předvídání zařazení nových dat na základě takto sestaveného modelu. Nejprve se ze vzájemné závislosti vstupních dat utvoří model a následně, v produkčních bězích, se určuje hodnota klasifikačního sloupce. Výsledek se zobrazuje ve formě osekaného či neosekaného stromu a ve formě tzv. konfuzní matice, udávající očekávané vs. předpověděné hodnoty klasifikačního sloupce v modelu.

7. Neuronová klasifikace a predikce
Pro stejný účel jako v předchozí funkci se využívá algoritmus neuronové sítě se zpětnou propagací. Výsledek se zobrazuje formou konfuzní matice a tabulky či grafu citlivosti klasifikačního sloupce vzhledem ke vstupním sloupcům. Takto vytvořená matice charakterizuje kvalitu modelu vytvořeného v neuronové síti. Názvy stejnolehlých sloupců a řádků této matice jsou shodné. Na diagonále je uveden počet či procento správně předpovězených prvků, mimo diagonálu jsou chybné předpovědi.

8. Radial Basis Function
Predikce na tomto matematickém základě odhalí závislosti a variace hodnoty jednoho pole na hodnotách ostatních polích ve stejném záznamu (např. změna chování nakupujících u jednoho druhu zboží, ovlivní jejich nákupní chování u druhého zboží). Z dat se známou hodnotou zkoumaného pole se následně vytvoří model, který se aplikuje na nová data, v nichž se hodnota tohoto pole předpovídá.

Tvoří se shluky s podobnou hodnotou předvídaného pole. Výsledky se zobrazují v grafu se záznamem střední předpovídané hodnoty a relativní střední kvadratické chyby.

9. Statistické funkce
pro přípravu dat, statistické vyhodnocení či ověření výsledků data mining jsou k dispozici základní statistické metody, včetně faktorizace.

Závěrem
Produkt IBM DB2 Intelligent Miner for Data v.6.1 je dostupný jak pro operační systém Microsoft NT - server, klient, tak i pro IBM AIX - server, klient, IBM AS400, IBM OS/390 - server, Sun Solaris - server a IBM OS2 - klient.

Autor pracuje ve firmě IBM v pozici Data Management Technical Sales.

IBM
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.


Inzerce

Modernizace IS je příležitost přehodnotit způsob práce

IT Systems 4/2025V aktuálním vydání IT Systems bych chtěl upozornit především na přílohu věnovanou kybernetické bezpečnosti. Jde o problematiku, které se věnujeme prakticky v každém vydání. Neustále se totiž vyvíjí a rozšiřuje. Tematická příloha Cyber Security je příležitostí podívat se podrobněji, jakým kybernetickým hrozbám dnes musíme čelit a jak se před nimi můžeme chránit. Kromě kybernetické bezpečnosti jsme se zaměřili také na digitalizaci průmyslu.