- Přehledy IS
- APS (20)
- BPM - procesní řízení (22)
- Cloud computing (IaaS) (10)
- Cloud computing (SaaS) (33)
- CRM (51)
- DMS/ECM - správa dokumentů (20)
- EAM (17)
- Ekonomické systémy (68)
- ERP (77)
- HRM (27)
- ITSM (6)
- MES (32)
- Řízení výroby (36)
- WMS (29)
- Dodavatelé IT slueb a řeení
- Datová centra (25)
- Dodavatelé CAD/CAM/PLM/BIM... (39)
- Dodavatelé CRM (33)
- Dodavatelé DW-BI (50)
- Dodavatelé ERP (71)
- Informační bezpečnost (50)
- IT řeení pro logistiku (45)
- IT řeení pro stavebnictví (26)
- Řeení pro veřejný a státní sektor (27)
ERP systémy
CRM systémy
Plánování a řízení výroby
AI a Business Intelligence
DMS/ECM - Správa dokumentů
HRM/HCM - Řízení lidských zdrojů
EAM/CMMS - Správa majetku a údrby
Účetní a ekonomické systémy
ITSM (ITIL) - Řízení IT
Cloud a virtualizace IT
IT Security
Logistika, řízení skladů, WMS
IT právo
GIS - geografické informační systémy
Projektové řízení
Trendy ICT
E-commerce B2B/B2C
CAD/CAM/CAE/PLM/3D tisk![]() | |
| Přihlaste se k odběru newsletteru SystemNEWS, který kadý týden přináí výběr článků z oblasti podnikové informatiky | |
![]() | |
Datová analytika a strojové učení v praxi
I. díl: Jak překonat úskalí nasazení datové analytiky s technologií strojového učení
Dnes se firmy doslova topí v datech. Ta se sbírají rychleji, ve větím mnoství a ve více formátech ne kdykoli předtím. Teoreticky by více dostupných informací mělo znamenat kvalifikovanějí rozhodování. Skutečnost je vak poněkud odliná. Objem shromaďovaných dat a rychlost jejich sběru začíná lidem přerůstat přes hlavu a tradiční analytické techniky den ode dne pozbývají na uitečnosti. Otevírá se tedy spousta prostoru pro vyuití analytických modelů se strojovým učením (ML). Na druhou stranu ani jejich implementace není bez problémů. Výzkumy například zjistily, e jen asi 10 % vyvinutých funkčních modelů je skutečně nasazeno do praxe, a to zejména z důvodů nedostatečné komunikace a sdílení znalostí v projektových týmech.

Tento článek si bere za cíl pomoci zejména novicům v oblasti Data Science a Machine Learning (DSML) porozumět větině úskalí, se kterými se typicky setkáváme při implementacích těchto technologií. Budeme se na problémy a moná řeení dívat jak optikou implementačních zkueností a metodik, tak z pohledu softwarových platforem. Bavíme se o oboru, kterému se v angličtině říká Data Science, ale pro potřeby tohoto článku si dovolím častěji uívat jen obyčejnějí datová analytika. Takté zjednoduím označení rolí datových specialistů souhrnně na datový analytik či expert namísto původního jemnějího dělení na Data Scientist, Data Engineer a Data Analyst. Dovolím si tímto článkem předat zkuenosti implementačních týmů společností RapidMiner a Altair, se kterými v Advanced Engineering spolupracujeme, a dále se odvolávat na průzkumy např. Forrester Consulting.
Proč byste se měli zabývat datovou analytikou
Připomeňme si na úvod poněkud zprofanovaný termín digitální transformace. Je to proces zavádění informačních technologií do celého podniku způsobem, který vám pomůe změnit způsob fungování firmy a vytvořit větí hodnotu pro vae zákazníky. Tedy ve se točí kolem přínosů a kolem toho, e se firma chce strategicky zlepovat, upevňovat své postavení na trhu nebo se stát leaderem svého oboru. A jak můe v rámci firemní strategie pomoci právě Data Science? Datová věda je multidisciplinární přístup, který pomáhá společnostem vyuívat jejich stávající data k předpovědím toho, co se pravděpodobně stane v budoucnosti. Tedy firmy mají monost například včas měnit objem výroby, měnit procesy, lépe vyhodnocovat rizika a chápat chování svých zákazníků. Potenciál je tedy zřejmý. Dokladem budi zpětná vazba respondentů zahraničního průzkumu, kde asi 25 % firem, které datovou analytiku se strojovým učením ji začaly vyuívat, ji berou za nejdůleitějí faktor své konkurenceschopnosti. A dalích 50 % respondentů tohoto průzkumu si myslí, e tomu tak bude během u dvou tří let. Bez zajímavosti není, e pionýři vyuití strojového učení neboli early adopters mívají navíc téměř dvojnásobnou návratnost investic do datové analytiky ve srovnání s těmi, co začnou později.
Různé přístupy k nasazení
Pokud se rozhodnete, e chcete začít s pokročilými datovými analýzami, nabízejí se tři běně vyuívané přístupy outsourcing celé úlohy konzultační firmě, nábor datových specialistů do firmy a třetí cestou je vybudování know-how zejména u stávajících pracovníků.
Outsourcing zadání směrem ke konzultační firmě na první pohled dává smysl konzultanti existují proto, aby pomohli zaplnit mezery v kompetencích a kapacitách svých klientů. Navíc mají ve své specializaci pičkové know-how. Pokud je vak vaím strategickým cílem zlepit datovou gramotnost v celém podniku a řeit postupně celou řadu případů pouití, přinese spoléhání se výhradně na externí konzultanty řadu omezení. Specificky pro oblast strojového učení je zde problém údrby modelů. I ty nejrobustnějí se stávají postupně nepřesnými a začínají dávat chybné předpovědi. Musí se o ně někdo nadále starat.
Druhým přístupem je nábor zkuených datových analytiků do vaí společnosti. Tato cesta můe být dobrá, zejména pokud budete do týmu potřebovat lidi s hlubokou specializací v Data Science a se schopnostmi programování. Chybou ale často bývá, e firmy tyto specialisty nechají pracovat izolovaně od okolí, a tak neumoní, aby se datová analytika stala klíčovou kompetencí celé organizace. Problémem je bohuel i velký nedostatek takových lidí na trhu práce a jejich fluktuace. A podobně jako u prvního přístupu jejich obrovská neznalost řeené oblasti. Nelze například očekávat, e pro tyto datové experty bude snadné optimalizovat efektivitu nějakého výrobního procesu, pokud jej dostatečně nepochopí.
Třetí cestou je roziřování kompetencí stávajícího týmu o schopnost pracovat s daty. Mluvíme o interních odbornících na jednotlivé činnosti firmy, například o středním managementu či zkuených interních analyticích. Tito lidé se musí umět z povahy své práce rozhodovat, respektive činit vrcholovému vedení kvalifikovaná doporučení. Při vyuití DSML musí navíc ke své dosavadní práci přidat dílčí kompetenci datového analytika. Pokud chtějí potenciál těchto technologií vyuít, třeba i ve spolupráci s externími konzultanty, potřebují datovým modelům a procesu jejich tvorby dobře rozumět, být schopni na vývoji participovat a výsledky umět dále srozumitelně interpretovat. Současné technologie se snazím osvojením a intuitivnějí prací ji umí pomoci.
Cest je tedy více a moné jsou i kombinace, ale klíčem bude nedrhnoucí komunikace v týmu a schopnost porozumět modelům a dosaeným výsledkům. Představte si následující situaci. V podstatě izolovaný tým specialistů-analytiků připraví model, třeba pomocí kódování v Pythonu nebo R, který bude správně navádět management společnosti ke strategické změně s dopadem mnoha milionů korun. Těko si dovedete představit, e model bude nasazen, pokud analytický tým nebude umět tento model vysvětlit jak vznikl, na základě jakých předpokladů a dat, jak funguje jeho algoritmus a s jakou pravděpodobností dosahuje prezentované přesnosti. Pokud vechny zainteresované strany, včetně managementu a vlastníků business procesů, nebudou od začátku vtaeni do projektu a dále nebudou mít k dispozici nástroje usnadňující vhled do modelů, je pravděpodobné, e se vyvinutý model octne na hromadě oněch 90 % nikdy nenasazených.
Porozumění v projektu, metodiky a zkuenosti
Projektový tým pro datovou analytiku sestává z odborníků na data, na IT infrastrukturu, na vlastní business i dalích. Tedy lidí s různým pohledem na věc. A pro porozumění mezi nimi je třeba nalézt správný jazyk, typicky vhodnou projektovou metodiku. Asi nejrozířenějí je CRISP-DM (cross-industry standard process for data mining). Pomůe porozumět fázím vývoje, společným cílům i vyhodnocení. V tomto článku nemáme prostor se jí zabývat detailněji, ale připomeňme si alespoň, jak definuje jednotlivé fáze projektu:
1. Business Understanding
Nejprve se zabývejte tím, jaká jsou obchodní očekávání projektu. Datoví analytici často povaují za hlavní problém projektu strojové učení ale pravda je, e ve musí být zaměřeno na businessové problémy. Dejte prostor business analýze a nespěchejte. Pokud v této fázi příli rychle přejdete k návrhu řeení, hrozí, e problémy vyřeíte nevhodně třeba tím, e budete vynucovat řeení pomocí strojového učení tam, kde se vůbec nehodí. Mohli byste také zcela minout zacílení na obchodní problém a vytvořit něco naprosto neuitečného.
2. Data Understanding
Prozkoumejte data, která máte k dispozici, jejich dostupnost v agregované či zdrojové podobě, dále přístupová práva, frekvenci jejich aktualizace a podobně.
3. Data Preparation
Vyčitění, třídění a zpracování dat je nejpracnějí fáze projektu. Datoví analytici by měli úzce spolupracovat s business specialisty, aby datový profil byl úplný, hutný a data pro model řádně vyčitěná. Tak bude model plně reprezentativní, ale nebude obsahovat zbytečný um.
4. Modeling
Připravte a zvate různé verze modelů na základě dat připravených z předchozí fáze. Následně validujte a porovnávejte jejich kvalitativní parametry.
5. Evaluation
Jakmile jste spokojeni s vytvořeným modelem, který jste vytvořili, musíte vyhodnotit, zda účinně splňuje obchodní kritéria stanovená ve fázi Business Understanding.
6. Deployment
Nakonec je třeba vyvinutý model nasadit do produkce, aby měl reálně pozitivní dopad na vae podnikání. Mohlo by se zdát, e nasazení modelu po jeho vytvoření je samozřejmostí, ale jak u bylo zmíněno výe, opak je pravdou.
Pojďme se, v rámci rozsahu tohoto článku, dále podívat na několik typických problémů, úskalí a potamo nejlepích zkueností, které vedou k jejich řeení alespoň podle výe zmíněných implementačních týmů.

Schopnost prodat výsledky své práce
Datoví experti si musí být vědomi, e zásadní je prodat své metody vem zainteresovaným stranám. Pokud je nepřesvědčíte, nikdy se modely nedostanou do produkce. Zůstaňte u jednoduchosti. Vechny koncepty strojového učení můete vysvětlit jednodue pomocí algoritmu rozhodovacího stromu. Rozhodně se nesnate, minimálně na začátku, vykládat například teorie neuronových sítí. Velmi důleité je naopak jasně vysvětlit, jak budou vypadat výsledky, jakou formou budou prezentovány (interaktivní dashboard, týdenní report, součást webových stránek apod.) a jaký budou mít dopad. A nezapomeňte komunikovat hodnotu vaeho projektu u od samého začátku.
Definování hledaného cíle analýzy
Definice hledaného cíle analýzy (tzv. label) je formulováním otázky, kterou chcete poloit vaim datům. Jakmile v tom budete mít jasno, ujistěte se, e vá cíl splňuje tři základní poadavky.
Za prvé, cíl musí odpovídat potřebám podniku. I pokud řeíte pilotní projekt, je lepí přemýlet o ověření přínosu ne o ověření konceptu (proof-of-concept). V této fázi je důleité získat důkaz, e projekt můe pro firmu vytvořit hodnotu, tedy e vá cíl přímo souvisí s jejími potřebami (proof-of-value).
Za druhé, cíl musí existovat. Jsou situace, kdy není moné cíl reálně změřit. Představte si například, e ve vaí továrně je technologie, která se jen málokdy dostane do havarijního stavu. Kdy se tak stane, stojí vás to hodně peněz. Ale k havárii dolo asi jen třikrát za posledních deset let. Ač se jedná o cíl, který je očividný a závaný, s tak malým mnostvím událostí je mimořádně obtíné natrénovat přesný model a pro predikci havárie tedy DSML není vhodné. Na druhou stranu můete pro DSML najít jiné cílové funkce pro těko měřitelné jevy. Můete pro měření pouít třeba lidský úsudek. Klasickým příkladem je analýza sentimentu nějakého textu, kdy se jako trénovací data pouívají lidská hodnocení, zda je komentář pozitivní, nebo negativní.
A za třetí, hledaný cíl musí být pouitelný. I ten nejlepí algoritmus strojového učení nepomůe, pokud poznatky, které z něj získáte, nejsou pouitelné v praxi. Musíte být schopni odpovědět na otázku: Jaké opatření bych ve firmě podnikl, kdybych to mohl předvídat?
Ale překvapivě, ne nutně potřebujete dokonale přesný cíl. Je potřeba si uvědomit, e ádné měření není bezchybné. I kdy čtete data z měřicího přístroje, třeba voltmetru, i ta mají svoji nepřesnost, se kterou nadále musíte počítat. I kdy budete mít cíl zaloený jen na lidském úsudku, jako například zmíněné hodnocení sentimentu textu, můete postavit funkční model. Jen je třeba si uvědomit, e nepřesnost cíle musíte zohlednit při stanovení přesnosti vaeho modelu.
Jakmile je obchodní problém jasně definován, je úkolem datového experta přiřadit problém metodě datové vědy. V ideálním případě chtějte problém transformovat na problém supervised learning, tedy učení s učitelem. Například v problému kategorizace to znamená, e ji znáte kategorie, do kterých chcete, aby vá algoritmus data roztřídil. Případy pouití modelu bez učitele je mnohem obtínějí optimalizovat, protoe neposkytují kvalitativní měřítko, na jeho základě byste mohli model vyhodnotit a vyladit.
Alternativní moností je změnit řeený problém na problém s učením (supervized) a namísto kategorizace jej povaovat za problém cílení (targeting problem): chcete předpovědět, zda si někdo koupí nějaký produkt, nebo ne. Tomuto postupu se říká segmentation by one.
Co je dostatečně kvalitní model a co je úspěch projektu
Častou chybou v této fázi projektu je, e vezmete své datové experty, předáte jim nějaká data a polete je na několik týdnů pracovat. Přitom očekáváte, e výsledkem jejich snaení bude model, který bude moné vcelku snadno nasadit do produkce. Bohuel tento v praxi běný postup je spíe receptem na katastrofu. Pouze kdy víte, čeho chcete dosáhnout, můete si odpovědět, zda jste daný problém vyřeili, nebo ne. Musíte si poloit otázku: Jak změřím kvalitu vyvinutého algoritmu?
Zaměřme se nyní ne na matematické metriky, ale na vztah k podnikání. Ukame si to na příkladech. Řeíme regresní úlohu a chceme předpovědět počet kusů objednaného zboí naimi zákazníky, abychom mohli s předstihem zabalit objednané poloky. Přecenění poptávky znamená připravit příli mnoho balení, která zůstanou leet na skladu. Podcenění objednávek ale znamená zpodění v dodávkách. Obchodní dopady, a tedy i náklady spojené s oběma předpověďmi se lií. To je rozdíl od typických statistických ukazatelů výkonnosti, jakými jsou RMSE nebo R², které předpokládají, e úlohy jsou symetrické.
Pro úlohy klasifikace jsou dokonalým příkladem domácí zdravotní testy. Self-test, který faleně předpoví, e máte danou nemoc (faleně pozitivní výsledek), vyvolá potřebu rozsáhlejích a draích následných testů. Tyto testy pak správně určí, e danou nemoc nemáte. Druhým typem chyby je situace, kdy výsledky testu ukazují, e danou nemoc nemáte, přestoe ji ve skutečnosti máte (faleně negativní výsledek). V tomto případě nesprávný výsledek zabrání správné a včasné léčbě, co můe způsobit váné pokození zdraví, nebo dokonce smrt pacienta. Opět, běné míry klasifikační přesnosti, jakými jsou skóre F1 a AUC, předpokládají, e faleně pozitivní a faleně negativní výsledky jsou stejně závané.
Řeením je tedy stanovení výkonnostní metriky zaloené na hodnotě, které bude co nejvíce odpovídat obchodnímu problému identifikovanému v první fázi projektu. Tady můe pomoci i samotný softwarový nástroj. Např. řeení RapidMiner je průkopníkem přístupu k vytváření modelů zaloených na ekonomických hodnotách tím, e poskytuje způsoby, jak zohlednit náklady a přínosy. To pomáhá určit nejlepí model pro daný případ pouití, a to nejen na základě statistické a matematické přesnosti modelu, ale také na základě dopadu, který budou mít předpovědi modelu na vae hospodářské výsledky.
A kdy je ná projekt úspěný? Často se doporučuje, e tehdy, jakmile model generuje sluné hodnoty. V praxi vznikla spousta modelů, které mohly uetřit statisíce dolarů ročně a které nebyly nasazeny, protoe tým datových expertů byl přesvědčený, e jetě nejsou dokonalé. Jak ale definovat tuto slunou hodnotu? Proto si potřebujete definovat kritéria úspěchu na začátku projektu. Pokud víte, jaká je vae prahová hodnota, a dosáhnete jí, můete vývoj přeruit a model nasadit. Nebo můete nasadit první verzi a paralelně budete pokračovat v dalím zdokonalování tohoto modelu.
Jako výchozí hodnotu (baseline) můete pouít jakékoli aktuálně nasazené řeení anebo tzv. naivní řeení. Výchozí hodnotou můe být například regrese vypočítaná v MS Excel a bude to skvělé. Máte toti s čím porovnávat. Pokud ádné stávající řeení nemáte, můete se porovnat s větinovou třídou v klasifikačním problému, s průměrem v regresním problému nebo historickou poptávkou ve scénáři předpovědi poptávek.
Data
Popularita umělé inteligence způsobila problémy vyplývající z toho, jak se na práci datových expertů dívají ostatní. Ti obvykle mají představu, e projekt vypadá asi takto: Vhodíme data do modelu pro Deep Learning a problém se sám vyřeí. Bohuel to tak nefunguje. Ne datoví experti začnou modelovat, potřebují kvalitně připravená data pro daný úkol. Jedná se o vytvoření tzv. profilu, kdy vytváříte jednořádkovou reprezentaci pro kadého zákazníka (nebo kadý stroj, aktivum apod.). Tento profil by měl být úplný a hutný. Úplný (complete) znamená, e data obsahují vechny moné informace, které mohou algoritmu pomoci při předpovědích. Hutný (dense) znamená, e jste dosáhli úplnosti s nízkým počtem jednotlivých atributů. Obtínost dosaení správné rovnováhy mezi úplností a hutností činí z kroku přípravy dat jednu z nejtěích činností v Data Science.
Dále budete řeit přístupy (přístupová práva), dostupnost (zda můete data zpracovat v reálném čase nebo v dávkovém reimu, a s jakou frekvencí aktualizace), a samozřejmě datové typy a formáty. Nás budou nejčastěji zajímat surová zdrojová (raw) data, často v podobě záznamů s povahou časových řad (time series). Často se setkáme s tím, e tato data máme k dispozici v datových skladech, ale ji agregovaná. To je dobré pro prototypování, ale na druhou stranu agregace vdy znamenají určitou ztrátu informací oproti zdrojovým (surovým) datům. Chcete-li tedy ve svém projektu získat co nejlepí výsledky, je důleité získat přístup k podkladovým datům a pouít je pro trénování a vyhodnocování modelů.
Jakmile máme přístup k datům, následuje čitění dat. Jak asi tuíte, data vdy obsahují chyby. Jsou neúplná, nekonzistentní, obsahují lidské chyby nebo duplicity. Často existují technicky zřejmé způsoby, jak data vyčistit. Ale existuje spousta umu a chyb, pro jejich identifikaci a čitění potřebujeme informace a nápady business specialistů, kteří jejich významu rozumí. Proces čitění a přípravy dat patří mezi nejpracnějí fáze projektu, proto je třeba včas si udělat představu, kolik budeme na tento proces potřebovat času.
Jak vám pomůe vhodná softwarová platforma
Dále budeme uvaovat, e firma si jako strategickou cestu k pokročilým analýzám zvolí variantu, kdy bude stavět know-how na vlastních lidech, tedy bude roziřovat kompetence vlastníků business procesů z pohledu práce s daty. Nebude se ani bránit konzultační výpomoci zvenčí, ale vdy bude chtít zůstat plným vlastníkem datových modelů, udrovat je funkční a provozovat je na interní SW/HW infrastruktuře.
Pokračování přítě
Autor článku je Business Development Manager společnosti Advanced Engineering, s. r. o.






















