facebook LinkedIN LinkedIN - follow
IT SYSTEMS 6/2019 , Plánování a řízení výroby , AI a Business Intelligence

Analýza velkých dat ve výstupní kontrole výroby

Ondřej Háva


AcreaAčkoli se dnes výrobní linky osazují senzory, které poskytují on-line velká data o stavu zařízení a jejich součástek, hlavním zdrojem dat pro kontrolu kvality výrobků zůstává výstupní kontrola na konci výrobního procesu. Výstupní kontrola často bývá též automatizovaná a kontrolní zařízení poskytuje množství dat o provedených kontrolách. Spolu s technologickými daty o komponentách výrobku a postupu jeho výroby představují kontrolní data nezbytný zdroj informací o příčinách nevyhovujících produktů, které se musí opravit nebo zlikvidovat. Následující text popisuje, jak v datech nalézt komplikovanější příčiny vadných výrobků sestávající se z kombinovaných vlivů více faktorů.


Z výrobní linky sjíždějí produkty a před jejich expedicí jsou podrobeny kontrole kvality. Podle druhu výrobku měříme jejich rozměry, hmotnost, pevnost, odolnost, dynamické vlastnosti, barvu, chuť, chemické složení, vodivost, pružnost atd. Pro výrobky zpravidla existuje několik testů, jimiž musí projít. Proces kontroly bývá automatizován a kontrolní zařízení pro nás generuje data o provedených testech a vyhodnocuje jejich závěry. Kontrolní, výrobní a technologická data by nám měla odpovědět na otázky: Co je příčinou konkrétní vady zjištěné výstupní kontrolou? Jaký zásah do výrobního procesu by snížil podíl vadných výrobků? Na jaké vady se zaměřit především?

Data z výstupních kontrol se běžně analyzují a kvalita výroby se bedlivě sleduje. Zpravidla ale tato data nabízí více informací než pouhé časové řady počtů jednotlivých vad. S přihlédnutím ke komplexnosti výrobků, množství prováděných testů a rychlosti výroby, resp. kontrol, se může jednat o big data, protože jejich analytické zpracování je mimo možnosti běžně dostupných softwarových nástrojů. A to nemusí nutně jít o on-line zpracování, pro odhalení přetrvávajících důvodů nekvalitní výroby, jejichž odstranění by představovalo značnou úsporu, postačí dávková, avšak podrobná analýza dat nashromážděných za určité období.

Hlavním důvodem, proč data o výrobcích považujeme za velká nebývá jejich objem měřený v počtu záznamů, ale jejich dimenzionalita determinovaná počtem atributů, tj. dostupných proměnných. Při výstupní kontrole prochází výrobek množstvím měření, výrobní postup se skládá z celé řady dílčích kroků, do výrobku patří velký počet surovin, komponent a polotovarů. To vše generuje vlastnosti výrobku ukládané jako jeho atributy.

Z analytického pohledu si taková velká data můžeme představit jako datovou tabulku s velkým množstvím sloupců. Řádky tabulky představují jednotlivé výrobky, sloupce reprezentují vlastnosti výrobků, buňky tabulky pak ukrývají hodnoty těchto vlastností. Ačkoli dostupná data nebývají uložena v takové jedné široké tabulce, pro analýzu je nutné širokou tabulku připravit, abychom mohli analyzovat vliv všech vlastností na kvalitu výrobku. Vlivy můžeme zkoumat odděleně, tj. každou sledovanou vlastnost zvlášť bez ohledu na ostatní vlastnosti, nebo hledat komplexní vlivy, kdy příčinou nekvality je společné působení více vlastností (faktorů) zároveň.

Analýza dílčích vlivů nám pomůže odhalit celou řadu klíčových příčin nekvalitní výroby a mnohdy si při ní vystačíme se základními analytickými softwarovými prostředky. Přechod k vícerozměrné analýze ve velmi široké datové matici však představuje obtížně řešitelný problém, kdy postupy používané v jednoduché analýze nelze přímočaře aplikovat. Například pro zjištění vlivu druhu použité suroviny na pevnost výrobku si vystačíme s analýzou jednoduché interakce mezi surovinou a pevností. Ani není nezbytné zkoumat interakci statisticky. Při detekci nás uspokojí přehledný graf, kde například pomocí sloupců vyneseme neměřenou pevnost či kategorizovaný závěr pevnostní zkoušky pro každou z použitých surovin. Jakmile si ale začneme klást otázky, zda pevnost ovlivnila nejen surovina ale i výrobní linka, obsluha a jejich možné kombinace, zjistíme, že graf bude nečitelný, protože kombinací hodnot třech atributů je příliš mnoho. A to jsme teprve u třech atributů, v široké datové matici jich můžeme mít stovky i tisíce.

Acrea

V klasické vícerozměrné statistice lze detekovat vlivy kombinací více faktorů na kvalitu výrobku například pomocí metody nazývané analýza rozptylu (ANOVA). Pomocí analýzy můžeme modelovat kvalitu výrobků, jež je ovlivněna libovolnými námi definovanými kombinacemi atributů. Pro každou zvolenou kombinaci atributů nám ANOVA poskytne statistický test pro potvrzení zkoumaného vlivu. Na první pohled by se tedy mohlo zdát, že problém je vyřešen a naše data nejsou tak velká, abychom je nemohli zpracovat běžně dostupnými softwarovými prostředky.

Při zkoumání vícerozměrných vlivů na kvalitu výroby však brzy zjistíme, že kombinací dostupných atributů je nepřeberné množství a prozkoumat všechny možné kombinace není v silách žádného člověka ani počítače. Představme si, že výrobek se skládá z desítek různých komponent a výrobní proces z desítek modifikovatelných kroků. Každá komponenta má několik variant a posloupnost výrobních kroků lze alespoň částečně modifikovat. Navíc výstupní kontrolou jsme schopni identifikovat několik desítek různých nedostatků. Množství vícerozměrných testů, které bychom mohli uskutečnit, tak geometricky narůstá a ani superpočítač by je nezvládl v rozumném časy všechny provést.

Lze vůbec taková informace o společném vlivu více proměnných z našich velkých dat získat? Paradoxně zjistíme, že naše velká data jsou pro detekci složitějších společných vlivů více faktorů příliš malá. Zní to divně, ale je tomu tak proto, že pokud chceme analyzovat vliv jakékoli zvolené kombinace faktorů na kvalitu výroby, musíme mít v datech alespoň několik výrobků s každou zkoumanou kombinací hodnot vyšetřovaných faktorů.

Kdybychom měli například jen deset dichotomických faktorů, tzn. každý faktor může nabývat jen dvou hodnot například ano/ne, můžeme zkoumat 1 024 kombinací faktorů. Každý faktor totiž můžeme zkoumat samostatně, pak zkusíme dvojice faktorů trojice atd. Pro těchto 1024 kombinací faktorů existuje 59 049 kombinací hodnot faktorů. Pro získání uchopitelných závěrů bychom potřebovali pro každou z těchto kombinací mít v datech několik případů akceptovatelného a několik případů vadného výrobku. To ještě pořád nejsou nijak velká čísla, takových počtů výrobků můžeme být schopni dosáhnout. Pokud však jen mírně zvýšíme dimenzionalitu ovlivňujících faktorů, počty potřebných výrobků letí do astronomických čísel. Například patnáct faktorů s třemi možnými hodnotami představuje 1 073 741 824 kombinací. Za jak dlouho jsme schopni vyrobit a zkontrolovat miliardy výrobků?

Z uvedených příkladů plyne, že hrubou silou, kdy budeme vyšetřovat vliv každé kombinace výrobních a technologických faktorů samostatně, úlohu nevyřešíme. Bude třeba se smířit s tím, že neprozkoumáme vše. Zkusme si ale úlohu přeformulovat tak, aby byla řešitelná, a přesto jsme byli schopni detekovat kombinace více faktorů, které ovlivňují kvalitu výroby.

Půjdeme na to hierarchicky pěkně shora dolů. To nám umožní vyhnout se zkoumání většiny kombinací faktorů. Nejprve se začneme zajímat o vlivy každého faktoru samostatně. To pro nás nepředstavuje problém, i když budou faktorů stovky. Pak se vrhneme na zkoumání vlivu dvojic faktorů, ale vybereme si jen ty dvojice, kde alespoň jeden faktor se ukázal důležitý při zkoumání faktorů samostatně. Takových dvojic také nabude mnoho. Zkoumání trojic provedeme tak, že začneme pouze s dvojicemi, jež se ukázaly v předchozím kroku důležité a budeme k nim přidávat třetí faktor. Analogicky budeme postupovat ke kombinacím více a více faktorů.

Celý postup se dá zakreslit jako stromová struktura. Do stromu zakreslujeme jen důležité faktory ovlivňující kvalitu výroby. Úrovně stromu představují počty současně působících faktorů, důležité kombinace faktorů zjistíme tak, že z vybraného uzlu ve stromě procházíme směrem nahoru k počátku stromu a zaznamenáváme do kombinace faktory v prošlých uzlech. Listy stromu, tj. uzly, které dále nepokračují, představují finální kombinace faktorů významně ovlivňujících kvalitu výroby.

 

Obr. 1: Stromová struktura kombinací faktorů ovlivňujících kvalitu výroby.
Obr. 1: Stromová struktura kombinací faktorů ovlivňujících kvalitu výroby.

A jak takový strom prakticky zkonstruujeme a jak kvantifikujeme vliv nalezených kombinací faktorů na podíl jisté vady? Takový postup by bylo možné naprogramovat. Museli bychom zvolit vhodnou metodu na testování závislosti mezi faktorem a vadou a u umět vytvářet rekurzivní programy, protože strom se skládá z podstromů a ty se skládají z podpodstromů atd. Programování ale nebude nutné. V běžném kancelářské balíku sice takovou metodu nenajdeme, ale běžné statistické a dataminingové softwary nám ji jistě nabídnou. A není třeba se poohlížet po nějakém speciálním softwaru pro velká data.

Souhrnně se algoritmům hledajícím příčiny hierarchicky říká rozhodovací stromy. Existuje jich více, liší se například tím, jak měří závislost mezi vysvětlovaným jevem a příčinami. Rozhodovací stromy nám nabídnou více než jen pouhé kombinace ovlivňujících faktorů. Ukáží nám, jak které hodnoty, resp. kombinace hodnot faktorů ovlivní kvalitu výroby. V uzlech stromu totiž uvidíme podíly vadných výrobků či průměrné hodnoty výstupních měření pro každou důležitou kombinaci hodnot faktorů.

 

Obr. 2: Příklad rozhodovacího stromu, který zobrazuje hierarchické kombinace komponent ovlivňující pevnost betonu.
Obr. 2: Příklad rozhodovacího stromu, který zobrazuje hierarchické kombinace komponent ovlivňující pevnost betonu.

Ačkoli se zdá, že jsme pomocí rozhodovacích stromů vyřešili dosti obtížnou úlohu, není dobré tyto algoritmy přeceňovat. I když dokáží vytvářet stromové struktury zcela automaticky, můžeme s nimi pokaždé dospět k úplně jiným závěrům. Tento fakt snadno zjistíme například tak, že zkusíme několik různých algoritmů pro vytváření rozhodovacích stromů a každý z nich nám poskytne strom jiný. Není to však způsobeno slabinou algoritmu, ale skutečností, že ovlivňující faktory spolu úzce souvisí. Obzvláště když jich máme stovky, jistě se najdou takové, že z hodnot jednoho můžeme s velkou mírou přesnosti odhadnout hodnoty jiného. Volba, který ze závislých faktorů přidáme do vznikající kombinace faktorů při budování stromu, je často na hraně a každý algoritmus se může na základě svého měření síly vztahu rozhodnout jinak.

Aby nám rozhodovací stromy přinesly co největší užitnou hodnotu, je vhodné je během růstu manuálně korigovat a na jejich vytváření se manuálně podílet. Lepší dataminingové softwary takové poloautomatické vytváření stromu mají implementované. Každé štěpení stromu buď můžeme nechat na algoritmu, nebo si sami do stromu vložit proměnnou tak, aby se nám společný vliv více faktorů dobře interpretoval a byli jsme schopni na základě zjištění modifikovat výrobní proces. Algoritmus by nám měl umět poradit, které z faktorů jsou pro štěpení v daném místě stromu vhodné a výběr už bude na nás.

I přesto, že pomocí rozhodovacích stromů jsme schopni hierarchickým přístupem detekovat důležité kombinace mnoha faktorů, může se snadno stát, že pro danou kombinaci faktorů nebudeme mít dostatečně spolehlivou oporu v datech. Nenajdeme totiž dostatečný počet případů, mohli spolehlivě prohlásit, že daná kombinace faktorů jistým způsobem zvyšuje nebo snižuje riziko výrobní vady. Proto je třeba vždy kontrolovat s jakým počtem výrobků v dané větvi stromu pracujeme, a pokud je počet nízký v řádu jednotek výrobků, raději se nesnažme do již početné kombinace faktorů další faktory přidávat. A pokud takové kombinace s nízkou podporou v datech již ve stromě máme, raději takové větve ze stromu odstraníme.

Při budování a interpretaci rozhodovacích stromů se podobně jako v jiných postupech držme úsporného principu Occamovy břitvy: Dělejme věci jen tak složité, jak je skutečně potřeba. Ačkoli jsme schopni detekovat i složité kombinace atributů zvyšující riziko vady, zpravidla je nebudeme schopni interpretovat a na základě zjištění navrhnout modifikaci výrobku nebo výrobního postupu.

Mgr. Ondřej Háva, Ph.D. Mgr. Ondřej Háva, Ph.D.
Autor článku je analytikem, lektorem a odborný konzultantem ve společnosti ACREA CR.
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.