- Přehledy IS
- APS (25)
- BPM - procesní řízení (23)
- Cloud computing (IaaS) (10)
- Cloud computing (SaaS) (31)
- CRM (52)
- DMS/ECM - správa dokumentů (19)
- EAM (17)
- Ekonomické systémy (68)
- ERP (75)
- HRM (28)
- ITSM (6)
- MES (33)
- Řízení výroby (36)
- WMS (28)
- Dodavatelé IT služeb a řešení
- Datová centra (25)
- Dodavatelé CAD/CAM/PLM/BIM... (41)
- Dodavatelé CRM (38)
- Dodavatelé DW-BI (50)
- Dodavatelé ERP (66)
- Informační bezpečnost (48)
- IT řešení pro logistiku (48)
- IT řešení pro stavebnictví (26)
- Řešení pro veřejný a státní sektor (27)
Tematické sekce


















Branžové sekce
![]() | Přihlaste se k odběru zpravodaje SystemNEWS na LinkedIn, který každý týden přináší výběr článků z oblasti podnikové informatiky | |
![]() | ||
Partneři webu
IT SYSTEM 9/2000
Jedna z definic chápe vytěžování dat (data mining) jako analytický proces navržený k prozkoumání velkých objemů dat (a to většinou z oblasti výroby a obchodu) s cílem nalézt a ověřit konzistentní znaky či systematické vztahy mezi proměnnými.
Proces vyhledávání v datech se v zásadě skládá ze tří etap: nejprve je nutné data prozkoumat, dále najít v nich nějaké vzory či souvislosti a vytvořit teoretický model, nakonec zbývá ověřit, zda nalezený model vyhovuje i jiným datům, než pomocí kterých byl vytvořen. V ideálním případě je samozřejmě tento postup opakován do té doby, je než nalezený model dostatečně zpřesněn, do té doby, než je dostatečně robustní. Tolik teorie.
Slova "v ideálním případě" už naznačují, že v praxi může být vše jinak. Často je nutno použít i heuristicky odvozené výsledky, neboť i ty jsou mnohem lepší než žádné výsledky. Právě tato praktická nutnost dosažení alespoň nějakých dobrých výsledků, potřebných ke každodennímu rozhodování, dělá z vytěžování dat disciplínu na pomezí několika zavedených oborů. Prolínají se zde statistika, umělá inteligence i databázové systémy. Pro vytěžování dat jsou všechny tyto tři obory zásadně důležité.
Ještě důležitější je však možná překvapivě ono prolínání. Tři různé systémy mohou být k ničemu, i když jeden zpracovává dobře statistické problémy, druhý pracuje s umělou inteligencí a třetí se stará i o ohromnou záplavu dat. A skutečně jsou k ničemu, pokud jejich spolupráce vázne, pokud statistický program neumí pracovat s daty o tisíci proměnných a desetitisících údajích, pokud výsledky statistické analýzy nejde vložit jako vstup do programu s umělou inteligencí apod.
STATISTICA a data mining
Program STATISTICA z běžně užívaných statistických metod zahrnuje všechny obvyklé postupy. Ovšem na takové problémy, které by se měly (či které je nutno) řešit pomocí vytěžování dat, patrně obyčejný t-test nebo analýza rozptylu stačit nebude. Tady spíše oceníme vícerozměrnou regresi a úplně nejvíce nás budou zajímat metody clusterové (shlukové) analýzy, faktorové analýzy nebo třeba regresní stromy. Tedy to, co už přesahuje "školskou" statistiku. Metody, kterým již skoro nikdo nerozumí, jak se vlastně počítají, ale které dávají překvapivě dobré výsledky pro praxi.
Tedy přesně to, co požadujeme od statistiky při vytěžování dat - člověk nemusí přesně vědět, jaká statistická metoda se kdy použila, důležitý je smysluplný výsledek. Neboť výsledek je to, co nás zajímá. Proto také do vytěžování dat patří i grafické metody, kdy si lze s daty "pohrát" graficky přímo na monitoru počítače, aniž bychom přísně racionálně (nebo řekněme matematicky) dovedli zdůvodnit, co kterou změnou chceme dosáhnout.
Nasazení umělé inteligence
STATISTICA Neural Networks je zástupcem umělé inteligence ve směsi zvané vytěžování dat, kterou společnost StatSoft nabízí. Hlavní předností je jejich "inteligence" - tedy schopnost se učit.
Díky této možnosti vývoje se neuronové sítě například naučí potlačit rušivé vnější vlivy jako nevšímat si překlepů (kdo se nikdy nepřepsal o desetinné místo?).
Výhoda implementace neuronových sítí společností StatSoft je poměrně snadná obsluha, snadné navržení sítě či třeba její trénování. Všechnu tuto práci může systém udělat v podstatě sám (ovšem také nemusí). Dalším plus je spolupráce se statistickým systémem STATISTICA, která umožňuje vybrat to nejlepší z obou přístupů (stále mějme na mysli, že při vytěžování dat nejde o nějakou "čistou" vědu, ale o prakticky použitelné výsledky).
Předpověď finančních časových řad (kde vstupuje do úvahy velké množství faktorů) zvládne jistě lépe neuronová síť, k použití předpovědí lze potom s úspěchem využít statistických metod.
Správa dat v databázích
Správa dat, databázové systémy - poslední ingredience pro kvalitní vytěžování dat je zastoupena v produkci společnosti StatSoft několika systémy. Nejjednodušší zástupce je již přímo zabudován do systému STATISTICA a jde o Megafile manager / správce "megasouborů". Nutno podotknout, že "mega" zde není běžné označení pro milión (jak by se v počítačové branži asi slušelo).
Díky Megafile manageru totiž není problém ani statistická analýza miliardy dat.
Do jiné dimenze se dostaneme, pokud použijeme podnikové systémy SEWSS nebo SENS. Ty jsou navrženy tak, aby obsluhovaly celý podnik od sběru dat po jejich zpracování a přehledné výsledky, třeba okamžitě, dodaly na stůl generálního ředitele. Oba tyto podnikové systémy jsou přirozeným rozšířením softwaru STATISTICA. Samozřejmě spolupracují také se všemi na trhu dostupnými databázovými systémy (jako Oracle, Sybase, Informix, Paradox, MS SQL …) apod. a mohou se tak stát dobrým pojítkem v podnikové správě dat.
Shrneme-li vše uvedené, lze konstatovat, že získat důležité informace z každodenní záplavy dat nemusí být až takovým problémem, jak by se na první pohled mohlo zdát.
www.statsoft.cz
Statistica - Data minig a neuronové sítě
Výsledky vytěžování dat musí být okamžitě použitelné
Mgr. Michal Škop


Jedna z definic chápe vytěžování dat (data mining) jako analytický proces navržený k prozkoumání velkých objemů dat (a to většinou z oblasti výroby a obchodu) s cílem nalézt a ověřit konzistentní znaky či systematické vztahy mezi proměnnými.
Proces vyhledávání v datech se v zásadě skládá ze tří etap: nejprve je nutné data prozkoumat, dále najít v nich nějaké vzory či souvislosti a vytvořit teoretický model, nakonec zbývá ověřit, zda nalezený model vyhovuje i jiným datům, než pomocí kterých byl vytvořen. V ideálním případě je samozřejmě tento postup opakován do té doby, je než nalezený model dostatečně zpřesněn, do té doby, než je dostatečně robustní. Tolik teorie.
Slova "v ideálním případě" už naznačují, že v praxi může být vše jinak. Často je nutno použít i heuristicky odvozené výsledky, neboť i ty jsou mnohem lepší než žádné výsledky. Právě tato praktická nutnost dosažení alespoň nějakých dobrých výsledků, potřebných ke každodennímu rozhodování, dělá z vytěžování dat disciplínu na pomezí několika zavedených oborů. Prolínají se zde statistika, umělá inteligence i databázové systémy. Pro vytěžování dat jsou všechny tyto tři obory zásadně důležité.
Ještě důležitější je však možná překvapivě ono prolínání. Tři různé systémy mohou být k ničemu, i když jeden zpracovává dobře statistické problémy, druhý pracuje s umělou inteligencí a třetí se stará i o ohromnou záplavu dat. A skutečně jsou k ničemu, pokud jejich spolupráce vázne, pokud statistický program neumí pracovat s daty o tisíci proměnných a desetitisících údajích, pokud výsledky statistické analýzy nejde vložit jako vstup do programu s umělou inteligencí apod.
STATISTICA a data mining
Program STATISTICA z běžně užívaných statistických metod zahrnuje všechny obvyklé postupy. Ovšem na takové problémy, které by se měly (či které je nutno) řešit pomocí vytěžování dat, patrně obyčejný t-test nebo analýza rozptylu stačit nebude. Tady spíše oceníme vícerozměrnou regresi a úplně nejvíce nás budou zajímat metody clusterové (shlukové) analýzy, faktorové analýzy nebo třeba regresní stromy. Tedy to, co už přesahuje "školskou" statistiku. Metody, kterým již skoro nikdo nerozumí, jak se vlastně počítají, ale které dávají překvapivě dobré výsledky pro praxi.
Tedy přesně to, co požadujeme od statistiky při vytěžování dat - člověk nemusí přesně vědět, jaká statistická metoda se kdy použila, důležitý je smysluplný výsledek. Neboť výsledek je to, co nás zajímá. Proto také do vytěžování dat patří i grafické metody, kdy si lze s daty "pohrát" graficky přímo na monitoru počítače, aniž bychom přísně racionálně (nebo řekněme matematicky) dovedli zdůvodnit, co kterou změnou chceme dosáhnout.
Nasazení umělé inteligence
STATISTICA Neural Networks je zástupcem umělé inteligence ve směsi zvané vytěžování dat, kterou společnost StatSoft nabízí. Hlavní předností je jejich "inteligence" - tedy schopnost se učit.
Díky této možnosti vývoje se neuronové sítě například naučí potlačit rušivé vnější vlivy jako nevšímat si překlepů (kdo se nikdy nepřepsal o desetinné místo?).
Výhoda implementace neuronových sítí společností StatSoft je poměrně snadná obsluha, snadné navržení sítě či třeba její trénování. Všechnu tuto práci může systém udělat v podstatě sám (ovšem také nemusí). Dalším plus je spolupráce se statistickým systémem STATISTICA, která umožňuje vybrat to nejlepší z obou přístupů (stále mějme na mysli, že při vytěžování dat nejde o nějakou "čistou" vědu, ale o prakticky použitelné výsledky).
Předpověď finančních časových řad (kde vstupuje do úvahy velké množství faktorů) zvládne jistě lépe neuronová síť, k použití předpovědí lze potom s úspěchem využít statistických metod.
Správa dat v databázích
Správa dat, databázové systémy - poslední ingredience pro kvalitní vytěžování dat je zastoupena v produkci společnosti StatSoft několika systémy. Nejjednodušší zástupce je již přímo zabudován do systému STATISTICA a jde o Megafile manager / správce "megasouborů". Nutno podotknout, že "mega" zde není běžné označení pro milión (jak by se v počítačové branži asi slušelo).
Díky Megafile manageru totiž není problém ani statistická analýza miliardy dat.
Do jiné dimenze se dostaneme, pokud použijeme podnikové systémy SEWSS nebo SENS. Ty jsou navrženy tak, aby obsluhovaly celý podnik od sběru dat po jejich zpracování a přehledné výsledky, třeba okamžitě, dodaly na stůl generálního ředitele. Oba tyto podnikové systémy jsou přirozeným rozšířením softwaru STATISTICA. Samozřejmě spolupracují také se všemi na trhu dostupnými databázovými systémy (jako Oracle, Sybase, Informix, Paradox, MS SQL …) apod. a mohou se tak stát dobrým pojítkem v podnikové správě dat.
Shrneme-li vše uvedené, lze konstatovat, že získat důležité informace z každodenní záplavy dat nemusí být až takovým problémem, jak by se na první pohled mohlo zdát.
www.statsoft.cz
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.
![]() ![]() | ||||||
Po | Út | St | Čt | Pá | So | Ne |
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 | 1 |
2 | 3 | 4 | 5 | 6 | 7 | 8 |
IT Systems podporuje
Formulář pro přidání akce
Další vybrané akce
15.5. | Konference SCADA Security |
22.5. | Akce pro automobilové dodavatele "3DEXPERIENCE... |
12.6. | Konference ABIA CZ 2025: setkání zákazníků a partnerů... |
29.9. | The Massive IoT Conference |