- Přehledy IS
- APS (20)
- BPM - procesní řízení (22)
- Cloud computing (IaaS) (10)
- Cloud computing (SaaS) (33)
- CRM (51)
- DMS/ECM - správa dokumentů (20)
- EAM (17)
- Ekonomické systémy (68)
- ERP (77)
- HRM (27)
- ITSM (6)
- MES (32)
- Řízení výroby (36)
- WMS (29)
- Dodavatelé IT slueb a řeení
- Datová centra (25)
- Dodavatelé CAD/CAM/PLM/BIM... (39)
- Dodavatelé CRM (33)
- Dodavatelé DW-BI (50)
- Dodavatelé ERP (71)
- Informační bezpečnost (50)
- IT řeení pro logistiku (45)
- IT řeení pro stavebnictví (26)
- Řeení pro veřejný a státní sektor (27)
ERP systémy
CRM systémy
Plánování a řízení výroby
AI a Business Intelligence
DMS/ECM - Správa dokumentů
HRM/HCM - Řízení lidských zdrojů
EAM/CMMS - Správa majetku a údrby
Účetní a ekonomické systémy
ITSM (ITIL) - Řízení IT
Cloud a virtualizace IT
IT Security
Logistika, řízení skladů, WMS
IT právo
GIS - geografické informační systémy
Projektové řízení
Trendy ICT
E-commerce B2B/B2C
CAD/CAM/CAE/PLM/3D tisk![]() | |
| Přihlaste se k odběru newsletteru SystemNEWS, který kadý týden přináí výběr článků z oblasti podnikové informatiky | |
![]() | |
Datová analytika a strojové učení v praxi
II. díl: Jak překonat úskalí DA/ML projektů s pomocí vhodné softwarové platformy
V první části tohoto článku v předchozím vydání IT Systems, jsme se věnovali úskalím projektů nasazení pokročilé datové analytiky s vyuitím strojového učení, a to zejména z pohledu lidských zdrojů a procesů. Na zkuenostech implementačních týmů společností RapidMiner, Altair a Advanced Engineering jsme si ukázali několik typických problémů v projektech ale i řadu doporučení pro jejich úspěné řeení. Dnes se podíváme na to, jak můe pomoci správné softwarové vybavení.

Řekli jsme si, e z dlouhodobého pohledu bude výhodnějí, kdy si firma jako strategickou cestu k pokročilým analýzám zvolí variantu, která staví zejména na budování know-how u vlastních lidí. Tedy posílí know-how týmu interních datových analytiků a inenýrů a zároveň bude roziřovat kompetence vlastníků business procesů o schopnost pracovat s daty. Nebude se ani bránit konzultační výpomoci zvenčí, ale vdy bude chtít zůstat plným vlastníkem datových modelů, udrovat je funkční a provozovat je na interní SW/HW infrastruktuře.
Podpora spolupráce
V minulém dílu tohoto článku jsme několikrát zmiňovali potřebu spolupráce v týmu, potřebu porozumění datům a algoritmům. Tedy i softwarová platforma pro realizaci DSML (Data Science / Machine Learning) projektů musí napomáhat vysvětlovat, vizualizovat navrhovaná řeení a umonit práci nejen datovým expertům na úrovni kódování, ale i příleitostným uivatelům v prostředí no-code/low-code. Kromě vizuálních prezentací a modelování by softwarové nástroje měly podporovat automatické zdokumentování projektů pro zajitění jejich transparentnosti.

Kompletní řeení pro vechny typy uivatelů
Trh je plný nástrojů, které upřednostňují určité typy uivatelů obvykle na úkor ostatních. Například platformy, které se zaměřují na datové experty programátory, nedokáou do projektu zapojit business specialisty, kteří se v kódu nevyznají. Je to koda, protoe právě oni mají největí znalosti firemních procesů a dat z nich nashromáděných.
V některých případech výrobci DSML řeení přidávají funkce, aby to vypadalo, e se zaměřují na uivatele s různými znalostmi, ale nenabízejí ádnou monost, aby tito uivatelé mohli pracovat skutečně společně a zastupitelně.
Není ádným tajemstvím, e datoví specialisté obvykle dávají přednost psaní kódu, zejména při řeení komplexních projektů. Programovací jazyky Python i R mají relativně jednoduchou syntaxi a iroký výběr knihoven, díky čemu jsou v data-science kruzích velmi oblíbené. Mít platformu, která podporuje pouívání těchto jazyků, je tedy zásadní. Mít flexibilní platformu s irí funkčností, která usnadňuje např. prototypování a vyhodnocování modelů, je výhodou i pro velmi zkuené kodéry. Jim pomáhá etřit čas, který potřebují pro jiné aktivity.
Prostředí Visual ML & Drag-and-Drop Designers jsou prostředí běná ve větině DSML platforem. Jde o uivatelské rozhraní, které přebírá sloité algoritmy a funkce datové vědy a zpřístupňuje je ve formě stavebních bloků s Drag&Drop ovládáním. To umoňuje netechnickým uivatelům vytvářet procesy bez psaní kódu a zjednoduit ve od přístupu k datům a po jejich nasazení. Rozdíly mezi platformami jsou spíe v kvalitě provedení tohoto prostředí. Mohou podporovat Drag&Drop jen pro některé základní úlohy, mohou se tvářit jako vizuální, ale ve skutečnosti vyadovat vepsání kódu. Někdy se zase stavební bloky mohou chovat jako černé skříňky bez monosti úprav vlastností a chování.
Automatizované strojové učení (neboli AutoML) provádí uivatele přípravou dat, výběrem modelu, nasazením a monitorováním. Vyuívají je předevím uivatelé vyadující strukturovanějí pomoc, ale mohou je vyuívat i programátorsky pokročilí datoví experti, kteří si chtějí uetřit manuální práci (např. pre-processing).
Podpora celého ivotního cyklu
Projekty v oblasti DSML se skládají z řady na sobě nezávislých kroků a ke kadému z nich je třeba přistupovat s náleitou péčí. Modely nemohou vytvářet uitečné předpovědi na datech, která nejsou správně připravena. A bez efektivní dlouhodobé údrby také nevytvoří poadovanou návratnost investic.
1. Přístup k datům (Data Access)
Platformy, které se u nyní nedokáou připojit ke vem vaim relevantním datům, jsou v podstatě nepouitelné. Nejlepí je najít platformu, která nabízí flexibilitu architekturu, která je schopna přizpůsobovat se změnám budoucích potřeb.
Je potřeba přemýlet i o podpoře práce se strukturovanými a nestrukturovanými daty. Strukturovaná data jsou ta, která lze snadno kategorizovat a která se dobře hodí do tabulek a softwarových programů (představte si standardní profily zákazníků pohlaví, věk, zájmy, útrata). Nestrukturovaná data jsou data, která nezapadají do tradičních struktur a nemohou být nativně uloena v relačních databázích (můe jít o text na webové stránce, PDF dokumenty, příspěvky na sociálních sítích či obrázky). Obvykle potřebujete kombinaci strukturovaných a nestrukturovaných dat. Řekněme, e chcete předpovědět, jaká je pravděpodobnost odchodu vaich zákazníků. Model, který předpovídá na základě historie předchozích objednávek, je nepochybně velmi prospěný, ale model, který by mohl zohlednit také e-mailovou korespondenci a reakce zákazníka na sociálních sítích, by byl nepochybně bezkonkurenční.
2. Příprava dat (Data Preparation)
Je veobecně známo, e a donedávna téměř 80 % času datového experta připadalo na přípravu dat. Proto správná platforma musí pokrývat zcela jistě základní funkčnost, jako je spojování (joining), připojování (appending) a odstraňování duplicit z vaich dat. Dále budete potřebovat nástroje pro rozdělení dat pro různé účely například oddělit trénovací, validační a testovací datové sady. Mezi nejdůleitějí z pokročilých funkcí pak patří podpora tvorby dostatečně hutných a nezauměných data-setů na základě případů uití tzv. Feature Engineering.
3. Analýza dat (Data Exploration)
Budete potřebovat prozkoumat datové sady, pochopit jejich vlastnosti. To vám významně zjednoduí vizualizační nástroje zobrazující grafy, statistické údaje a podobně.
4. Vytvoření a ověření modelu (Model creation & validation)
Neexistuje ádný univerzální přístup k vytváření modelu. Obvykle existuje řada algoritmů, které by mohly řeit danou úlohu trik spočívá v tom, e najdete ten nejjednoduí, který můe přinést pouitelný model. A ten pak natrénujete. Správná platforma, kterou hledáte, by měla podporovat irokou kálu algoritmů a technik strojového učení, a to jak s učitelem, tak bez. Zajímejte se i o podporu pokročilejích technik datové vědy, jakou je například hluboké učení (Deep Learning).
Jakmile budete mít model připravený, budete jej muset otestovat. Hledejte platformy s irokou kálou validačních technik (například cross & split validation).
5. Nasazení modelu (Model Deployment)
S ohledem na vai infrastrukturu se budete zajímat o funkce pro snadné a flexibilní nasazení do produkce pomocí kontejnerizace, o přenositelnost a administrovatelnost. Budete si pravděpodobně chtít nechat otevřené monosti jak pro běh řeení na interní infrastruktuře, tak v cloudu. Zajímat vás bude podpora technologií, jakými jsou Docker a Kubernates.

6. Vyhodnocení výsledků (Results evaluation)
Po úspěném nasazení modelu je čas začít analyzovat předpovědi a vyuívat je k přijímání kvalifikovanějích rozhodnutí. Kvalitní platformy vám pomohou nejen měřit přesnost modelu, ale také kvantifikovat odhadovaný obchodní dopad určitých rozhodnutí. Chtějte intuitivní zobrazení, interaktivní ovládací panely nebo integrace na nástroje, na které jste ji zvyklí (např. Tableau nebo PowerBI).
7. Dlouhodobá údrba (Long-term maintenance)
Analytické modely mají tendenci zastarávat a stávat se nepřesnými, zejména pokud se mění předpoklady, za kterých byly vyvinuty. Příli často se stává, e společnosti zprovozní model a spoléhají se na něj i v době, kdy u je velmi nepřesný. U modelů, které nejsou monitorovány, pravděpodobně dojde k degradaci nebo driftu.
Jedním z příkladů koncepčního driftu je vytvoření modelu, který analyzuje nákupní chování bez ohledu na sílu celkové ekonomiky země. Pokud by významná makroekonomická událost, představme si třeba dopady covidu, razantně změnila nákupní zvyky obyvatel, předpovědi vaeho modelu by byly zcela jistě chybné.
Platforma pro Data Science by vám měla pomoci porovnat skutečnou výkonnost a přesnost modelu s předpokládanými hodnotami, testovat více modelů společně a monitorovat drift. Navíc, zpřístupněním datových modelů prostřednictvím vhodného GUI, lze umonit intuitivní a efektivní monitorování modelů i běným business specialistům. Tedy těm, kteří sledované problematice nejvíce rozumí.
Transparentnost
Jak u vícekrát zaznělo, nasazení modelů do praxe není vůbec jednoduchá a samozřejmá věc. Není snadné ve firmě změnit rozhodovací procesy, které jsou provázány se strategií nasazení datových modelů. Je obzvlátě pravděpodobné, e se setkáte s odporem, pokud vyzvete místnost plnou manaerů, aby se rozhodovali na základě předpovědí, kterým pořádně nerozumí.
Vae platforma by s pomocí vizualizací měla poskytovat úplný pohled na celé datové workflow. V případě odklonu reálných dat v produkci od tréninkových dat ve vývoji musíte být schopni izolovat hlavní příčinu ztráty výkonnosti a přesnosti modelu. Budete potřebovat vyhodnotit, jakou váhu model přikládá jednotlivým vstupům prostřednictvím globálních vah funkcí (global feature weights). Budete nuceni porozumět i dílčím závislostem v modelu zjistit, jak model reaguje na změny jedné vstupní hodnoty. Příkladem můe být zjiování, jak velkou váhu má v modelu délka vztahu zákazníka s vámi, v porovnání například s celkovou částkou, kterou u vás utratil. Budete potřebovat i funkčnost vyuívající standardních metod LIME a SHAP.
Platformy nabízející full transparency & explainability, pomáhají odpovědět na vechny otázky co kdyby týkající se vztahu mezi vstupy a předpověďmi. Tím, e uvidíte, co se stane, kdy záměrně manipulujete s různými vstupy modelu, můete nejen zjistit, jak se model můe chovat v produkci, ale také toto chování ověřit proti prověřeným zkuenostem v daném oboru podnikání.

Soulad s ICT politikami
Předpokládáme, e zdrojová data a modely zůstávají ve firmě nebo v jejím privátním cloudu a stejně tak zamýlená softwarová platforma poběí v interním prostředí. Budou se tedy aplikovat interní ICT politiky a z nich plynoucí poadavky. Budete poadovat pravidla centralizaci dat tak, aby tato mohla být opakovaně pouita i pro budoucí projekty a datové modely. Stejně tak nově implementovaná platforma bude muset splňovat bezpečnostní (ISMS) standardy firmy se vemi náleitostmi na řízení přístupů, dvoufaktorovou autentizaci, ifrování dat a tak dále.
Specificky zmiňme poadavky na auditovatelnost a sledování původu dat. Management firmy musí důvěřovat datům, na kterých jsou zaloeny předpovědi modelů. To zahrnuje i to, odkud data pocházejí a jak byla v průběhu času transformována. Automatické protokolování a funkce verzování jsou základem funkce, které umoňují rychle zobrazit historii revizí a modifikací procesu, pomohou vystopovat kadou transformaci, změnu i jejího autora.
Softwarová platforma musí dobře spolupracovat se vemi stávajícími informačními systémy a infrastrukturou ve firmě, a to pokud mono co nejvíce bezevým přístupem. Sem patří i schopnost se navázat na dalí analytické nástroje (např. nástroje Business Intelligence pro snadnou vizualizaci výsledků). Jakékoli blokace, manuální rozhraní a jiné problémy mohou významně zdrovat realizaci projektů, zpoďovat nasazení, a tedy přinést zbytečné a vysoké ekonomické ztráty. Platforma musí být i flexibilní pro přizpůsobení změnám infrastruktury v budoucnosti.
Závěrem
Chcete-li uspět s Data Science u vás ve firmě, musíte najít způsoby, jak ji přiblíit skutečným business problémům. Upřednostněním přístupu zaloeného předevím na zapojení vaeho stávajícího týmu, jeho vzděláváním ve schopnosti pracovat s daty, budete mít v dlouhodobém horizontu pravděpodobně výhodu. S podporou vhodné metodiky, softwarové platformy a třeba i externí konzultační podpory jistě vyuijete potenciál Data Science v irím měřítku. Ale platí, e nemusíte pouívat strojové učení na ve. Zvlátě pokud existuje pro daný problém vhodnějí řeení.
Autor článku je Business Development Manager společnosti Advanced Engineering, s. r. o.




















