- Přehledy IS
- APS (25)
- BPM - procesní řízení (23)
- Cloud computing (IaaS) (10)
- Cloud computing (SaaS) (31)
- CRM (52)
- DMS/ECM - správa dokumentů (19)
- EAM (17)
- Ekonomické systémy (68)
- ERP (75)
- HRM (28)
- ITSM (6)
- MES (33)
- Řízení výroby (36)
- WMS (28)
- Dodavatelé IT služeb a řešení
- Datová centra (25)
- Dodavatelé CAD/CAM/PLM/BIM... (41)
- Dodavatelé CRM (38)
- Dodavatelé DW-BI (50)
- Dodavatelé ERP (66)
- Informační bezpečnost (48)
- IT řešení pro logistiku (48)
- IT řešení pro stavebnictví (26)
- Řešení pro veřejný a státní sektor (27)


















![]() | Přihlaste se k odběru zpravodaje SystemNEWS na LinkedIn, který každý týden přináší výběr článků z oblasti podnikové informatiky | |
![]() | ||
Data mining nad nestrukturovanými daty
je v době velkých dat doménou cloudu
Nestrukturovaná data byla řadu let strašákem všech analytiků. Získat z nich informace a ty nějak analyzovat, natož pak vytěžit, vyžadovalo značné manuální úsilí a výsledky nebyly vždy takové, jak by si zadavatel úkolu vždy představoval. Dnes je tomu ale jinak. O zpracování a ukládání se v době velkých dat postará cloud a data z nich vytěží umělá inteligence.


Nákupní chování i data ze senzorů
Nestrukturovaná data jsou reprezentována například fotografiemi, videi, zvukovými (potažmo hudebními) nahrávkami, ale také, což je důležité zejména pro firmy, údaji ze senzorů, informacemi o nákupním chování zákazníků, jejich požadavcích apod. Správné vytěžení těchto údajů může vést ke klíčovým průlomům v produktivitě práce, spolehlivosti chodu strojů i spokojenosti zákazníků. Jak?
Veškerá logistika (od plánování přepravy až po doplňování regálů v supermarketech), doprava (od plánování kapacity komunikací až přes dimenzování kapacity spojů hromadné dopravy), obsluha zákazníků v prodejnách, dimenzování telekomunikačních sítí atd. je postavená na teorii hromadné obsluhy, která potřebuje hlavně data. A ta jdou v dnešní době konečně získávat levně, rychle a hlavně naprosto přesně. Problém nastává ale s tím, že jich je prostě mnoho. Stačí se podívat, kolik aut projede za minutu po libovolném úseku dálnice anebo kolik zákazníků odbaví za hodinu pokladny v hypermarketu. Správné odhadnutí budoucího provozního zatížení je přitom klíčem k maximalizaci efektivity, ale také spokojenosti zákazníků.
A nejinak tomu je i u teorie provozní spolehlivosti, která při aplikaci správných datových modelů a dostatečného množství dat dokáže velice přesně predikovat, kdy dojde k další poruše technického zařízení. To ostatně velice efektivně využívá i Thyssen Krupp, lídr na celosvětovém trhu výtahů, který využívá Microsoft Azure Machine Learning (Azure ML) – cloudový systém strojového učení – k tomu, aby zjistil, kdy dojde k poruše na jeho výtazích. Údržba a opravy se tak odehrávají ještě dříve, než k poruše dojde. Minimalizuje se tak, či dokonce eliminuje, doba poruchy u všech 1,1 milionu instalovaných výtahů, což nejen že snižuje náklady, ale také radikálním způsobem zvyšuje spokojenost zákazníků. Přeci jen, když vám např. v New Yorku nefunguje několik hodin výtah v 50 poschoďovém domě, je to dost zásadní problém. Každý výtah přitom obsahuje desítky senzorů a je schopný generovat 400 různých chybových kódů. Každou minutu je tak potřeba sbírat, vyhodnocovat a strojově analyzovat obrovské množství dat.
Strojové učení přitom aktivně pomáhá ještě v jedné oblasti, kde ho využívá např. společnost Pier 1, přední prodejce domácích dekorací s desítkami poboček po celých Spojených státech – analýza nákupního chování zákazníků. Na fakt, že např. při nákupu digitálního fotoaparátu vám e-shop nabídne i možnost zakoupit si paměťovou kartu a obal na něj, jsme si již poměrně zvyklí. Jenže to jsou zcela zjevné komplementy, které nevyžadují žádnou sofistikovanou inteligenci ani analýzu. U domácích dekorací je to ale o dost těžší. Datový model musí počítat s barvami, určením výrobku, tvary atd. Navíc, zatímco zákazníkovi, kterému při nákupu tiskárny doporučíte koupit k ní i toner, žádnou velkou službu neuděláte, tak zákazník, který si koupil stolek, a vy mu doporučíte skříňku od jiného výrobce, která se k němu perfektně hodí, vám bude vděčný a přijde k vám nakoupit znovu.

Obr. 1: Ukázka Azure Machine Learning modelu analýzy rizik sestaveného pomocí drag&drop.
Cloud pomůže už s prvotním zpracováním dat
K tomu všemu je ale potřeba zpracovávat velké objemy dat. Pro všechny regresní analýzy (analýzy časových řad) přitom platí jednoduchý zákon, že čím více historických dat, tím lépe. To samé ovšem nelze říci o běžné IT infrastruktuře, kde naopak platí, že čím více dat, tím větší náklady na datová úložiště, větší nároky na výpočetní výkon a delší čas potřebný k jejich zpracování, zálohování, čištění, obnově atd. Tedy pokud tato data nemáte v cloudu, který je schopen s velkými daty pracovat. A takových cloudů není popravdě mnoho. Protože opravdu velká data často narážejí na technologická omezení. Proto třeba Microsoft Azure odděluje běžné cloudové databázové služby jako je Microsoft Azure SQL Database od řešení integrujících databázi, datový sklad a BI/analytiku pro velká data, jako je Azure HDInsight postavený na Hadoopu. HDInsight se navíc liší i způsobem účtování a dalšími parametry, které pro vás začnou být důležité až v okamžiku, kdy zpracováváte opravdu velká množství dat.
Strojové učení najde souvislosti rychleji a přesněji
A na velkých datech vybudoval Microsoft i svoji cloudovou službu zaměřenou na strojové učení Azure ML. Její schopnosti při analýze nestrukturovaných dat demonstruje např. na webu www.how-old.net, kde odhaduje z fotografií lidí jejich pravděpodobný věk – tedy něco, co není jednoduchým úkolem ani pro člověka. Azure ML je platforma postavená na uživatelsky přívětivé tvorbě prognostických modelů. Zkušenější datový analytik si zde v intuitivním drag & drop webovém rozhraní vytvoří a odladí datový model popisující oblast, kterou chce v datech sledovat. Na základě naplnění daty a provedení jejich prvotní analýzy, pak tento model může průběžně upravovat. S každými dalšími vloženými daty se model zpřesňuje, neboť se v nich Azure ML postupně učí hledat souvislosti.

Obr. 2: Power BI nástroje zajistí přehlednou vizualizaci datových výstupů.
Krásným praktickým příkladem takového učení se nad nestrukturovanými daty je OCR – neboli rozpoznávání textu – u ručně psaných textů. Každý z nás píše trochu jinak. Číslice 1 tak může mít nejrůznější podoby, ale vždy to bude číslice jedna. Pokud stroji dáte dostatek obrazových vzorků, jak ještě může psaná jednička vypadat, a potvrdíte mu, že to je jednička, začne ji s výrazně rostoucí přesností identifikovat už sám. Ano, párkrát mu budete muset pomoci rozpoznat ji od sedmičky a opravit několik chybných interpretací, ale stroj se postupně naučí identifikovat jedničku tak, že se vyrovná člověku anebo ho třeba i předčí.
Z pohledu datového analytika pracujícího s datovým modelem v Azure ML je přitom úplně jedno, o jaký typ nestrukturovaných dat se jedná. Klíčové je jen to, aby uměl posoudit, zda výstupy jsou relevantní či nikoliv, aby tak pomohl Azure ML se učit.
Azure ML obsahuje už předpřipravené modely pro nejrůznější situace
Velkou výhodou je i fakt, že pro řadu aplikací už existují předpřipravené a odladěné modely přímo od Microsoftu a související komunity, http://gallery.azureml.net/. Ať už se jedná o rozpoznávání hlasu, analýzu textových souborů, analýzu „nálady“ uživatelů sociálních sítí, detekci anomálií, predikci odchodu zákazníka od vaší společnosti, identifikaci komplementů v sortimentu atd. I tyto datové modely lze však upravovat a odlaďovat tak, aby respektovaly konkrétní procesy, sortiment a zákazníky dané společnosti. Přínosy těchto aplikací pro firmy jsou přitom zřejmé. Ale jen tehdy, budou-li efektivně uváděny do praxe. A to je klíčový prvek libovolného Business Intelligence, ať už nad strukturovanými či nestrukturovanými daty, on-premise či v cloudu, anebo nad velkými či malými daty.
Příklady z praxe ukazují jasný trend
Příklady ze současné praxe jednoznačně ukazují, že data mining nad nestrukturovanými daty se firmám podnikajícími v lokálním i globálním měřítku jednoznačně vyplácí. Se současnou změnou trendu v řízení firem, kdy na prvním místě má stát vždy zákazník, jsou navíc výstupy z data miningových aplikací o to cennější. Důležité ovšem je umět tyto výstupy získávat za cenově a časově přijatelných podmínek. A právě zde se dostává ke slovu cloud a strojové učení, které jsou schopny odstranit technické a finanční překážky v masivnějším využití data miningu nad různými typy dat. Tu poslední překážku – implementaci výstupů do každodenní praxe řízení a chodu společnosti – však vždy bude muset překonat vedení společnosti samo.
![]() |
Robert Havránek Autor článku je produktovým manažerem divize Cloud + Enterprise společnosti Microsoft. |


![]() ![]() | ||||||
Po | Út | St | Čt | Pá | So | Ne |
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 1 | 2 | 3 | 4 |
5 | 6 | 7 | 8 | 9 | 10 | 11 |
Formulář pro přidání akce
15.5. | Konference SCADA Security |
22.5. | Akce pro automobilové dodavatele "3DEXPERIENCE... |
12.6. | Konference ABIA CZ 2025: setkání zákazníků a partnerů... |
29.9. | The Massive IoT Conference |