- Přehledy IS
- APS (25)
- BPM - procesní řízení (23)
- Cloud computing (IaaS) (10)
- Cloud computing (SaaS) (31)
- CRM (52)
- DMS/ECM - správa dokumentů (19)
- EAM (17)
- Ekonomické systémy (68)
- ERP (75)
- HRM (28)
- ITSM (6)
- MES (33)
- Řízení výroby (36)
- WMS (28)
- Dodavatelé IT služeb a řešení
- Datová centra (25)
- Dodavatelé CAD/CAM/PLM/BIM... (41)
- Dodavatelé CRM (38)
- Dodavatelé DW-BI (50)
- Dodavatelé ERP (66)
- Informační bezpečnost (48)
- IT řešení pro logistiku (48)
- IT řešení pro stavebnictví (26)
- Řešení pro veřejný a státní sektor (27)


















![]() | Přihlaste se k odběru zpravodaje SystemNEWS na LinkedIn, který každý týden přináší výběr článků z oblasti podnikové informatiky | |
![]() | ||
Potenciál statistické a dataminingové analýzy ve zdravotnictví
Zdravotnická zařízení disponují velkým množstvím dat. Jak ale data zpracovat? Dala by se využít pro zjednodušení medicínské diagnostiky a ušetřit tak náklady? Lze z nich získat nové vědecké poznatky? Jak zpracovat existující data pomocí statistických a dataminingových metod?


Všechny obory zažívají rozmach statistického a analytického zpracování dat a nejinak je tomu i ve zdravotnictví. Díky moderním technologiím nejen na poli hardwarového vybavení, ale i moderním softwarovým nástrojům, jsme schopni navíc analyzovat i velké soubory dat. Konkrétně pro zdravotnictví je úloha často specifikována jejich charakterem a objemem.
V některých situacích máme pouze několik informací o pár pacientech, ať už je to způsobeno náklady, náročností měření nebo vzácností zkoumaného onemocnění. V jiných situacích, jako je třeba analýza DNA čipů (microarrays, genomická data) jsou k dispozici obvykle data pro relativně malý počet pacientů, ale obsahují poměrně velké množství naměřených parametrů. Dále můžeme mít velké množství záznamů například z celonárodní databáze pacientů. Tato data se analyzují podobným způsobem, ale je třeba mít k dispozici výkonné datové sklady, analytický software a v neposlední řadě pečlivého analytika.
Statistická analýza dat
Při každé analytické úloze, nejen ve zdravotnictví, je prioritou prozkoumat a pochopit základní vzory a informace v datech. K tomu slouží metody popisné statistiky od základních postupů, jako jsou výpočty průměrů, směrodatných odchylek, které zachycují variabilitu neboli rozptýlení dat, až po následnou vizualizaci dat například pomocí histogramů. Ačkoliv v řešené úloze nejsou po analytikovi základní náhledy do dat vyžadovány, bylo by chybou je neprovádět! Zjištěné informace nám v mnohém usnadní analýzu hlavní úlohy a poukáží na klíčové nedostatky v datech, ať už se jedná o chybějící hodnoty, nedostatečné rozsáhlé a nereprezentativní výběry, či příliš rozptýlená číselná data. Příklad: Mezi pacienty se vyskytují cukrovkáři a lidé bez diagnostikovaného diabetu. Diabetes není předmětem zkoumání, ale je zkoumán vliv hladiny glukózy v krvi na jiné onemocnění. Vzhledem k charakteru číselné veličiny by bylo vhodnější převést hladinu glukózy na příznak s hodnotami 0 a 1 identifikující diabetika, a dále pracovat již s touto transformovanou hodnotou.
Medicínské úlohy většinou vycházejí ze snahy prokázat, konfirmovat, z hůry (ad-hoc) daná tvrzení. Tedy provést konfirmační analýzu formou testování hypotéz. Pozorné zkoumání dat nám nejen umožňuje matematicky formulovat nové hypotézy a volit vhodné konfirmační metody pro často neexaktně formulované tvrzení, kdy například místo parametrických metod k testování hypotéz o průměru použijeme neparametrický přístup k testování mediánů (lokace).

Obr. 1: Příklad Explorace vztahu mezi genovou expresí a typem leukémie (akutní lymfoblastická leukémie vs. akutní myeloidní leukémie) na vybraných genech. Data z (Golub et al. (1999). Molecular classification of cancer: class discovery and class prediction by gene expression monitoring, Science, Vol. 286:531-537)
Při prozkoumávání dat se nám navíc otevírá další prostor ve formě explorační analýzy dat (EDA – exploration data analysis). Pod akronymem EDA se ukrývá poměrně mohutný koncept práce s daty. V rámci něho se pracuje se statistickými a vizualizačními nástroji, jako jsou například oblíbené boxploty – krabicové diagramy s fousky, které poskytují nejenom přehlednou informaci o umístění mediánů, ale znázorňují i tvar rozložení (shape). Dále podchycují i přítomnost neobvykle odlehlých či dokonce extrémních měření. Tyto extrémní případy je pak možné konkrétně prozkoumat. Exploračních metod samozřejmě existuje celá řada a vydaly by na několik knih.
Explorační analýza poskytuje nástroje k prozkoumání základní informace v datech, ale objevuje i zatím neznámé vztahy, díky nimž se rozšiřuje konfirmační analýza o nově položené hypotézy explorované v datech. Je třeba si ale dávat pozor na prokazování neočekávaných výsledků. Jelikož zformulovaná hypotéza vychází z pozorování na datech, může docházet k nahodilé identifikaci závislostí, které se ale ve skutečnosti nevyskytují, proto je třeba své závěry prokazovat nejenom matematikou, ale i odbornou úvahou nad danou analýzou a vysvětlením nalezených vztahů.
Testování hypotéz
Testování hypotéz je základním analytickým prostředkem pro řešení předložených úloh. Je však dosti důležité porozumět principu testování. Nulovou hypotézu bereme jako počáteční (nulový) stav, tvrzení alternativní hypotézy je určeno zkoumaným vlivem, který chceme v datech prokázat. Testování hypotézy je analogií hledání důkazů, že počáteční stav neplatí a lze přistoupit k alternativě a potvrdit existenci zkoumaného vlivu. V případě, kdy test nulovou hypotézu nezamítá ve prospěch alternativy, nedisponujeme dostatkem důkazů k jejímu prokázání.
Při testování hypotéz je důležité zvážit, zda statisticky prokázaný vliv je významný i fakticky, například je-li prokázané odchýlení o 0,01°C naměřené veličiny mezi dvěma skupinami významné i fakticky. Další ohled je třeba brát i na teorii testování hypotéz. Pracujeme-li na pěti procentní hladině pro chybu prvního druhu pro testování hypotéz, pak ze 100 potvrzených závěrů se očekává 5 nepravdivě prokázaných uměle vytvořených vztahů – artefaktů. A v neposlední řadě příslušné statistické testy taktéž vycházejí z předpokladů, které je důležité ověřit, nebo alespoň okomentovat, že jejich mírné porušení neovlivní výsledky testování.

Obr. 2: Motivační diagram pro testování hypotéz na ilustračních datech. Na levé straně je znázornění nulové hypotézy, kdy se obě skupiny chovají stejně, takový konstrukt můžeme chápat jako počáteční (nulový) stav, alternativa napravo znázorňuje stav způsobený nějakým vlivem.
Datamining
Pod termínem datamining, neboli vytěžování dat, není ukryto nic tajemného. Jedná se o ucelený přístup k objevování užitečných vztahů v datech. Většinou pracujeme s mnoha záznamy, informace jsou zakomponovány do většího množství tabulek s různou strukturou. Například v jedné tabulce jsou uvedeny sociodemografické záznamy pro jednotlivé pacienty a v druhé tabulce se vyskytují záznamy o návštěvách pacientů ve zdravotnickém zařízení, tudíž jeden pacient může mít i více různých návštěv. Velká pozornost tedy musí být věnována přípravě dat k řešení zkoumané úlohy. Taktéž oproti běžnému statistickému přístupu není práce založena striktně na testování hypotéz, ale například využívá i metodiku explorační analýzy ať už pro vyloučení nezajímavých vlastností (feature reduction) nebo pro vytváření nových atributů (feature extraction) s pomocí metody hlavních komponent.

Obr. 3: Klasifikační strom je modelovací nástroj pro predikci proměnné. Příklad predikce na genových expresích, kdy jsou pacienti trpící akutní lymfoblastickou leukémií (ALL) a akutní myeloidní leukémií (AML) rozděleni do pěti skupin, a je nalezen klasifikátor, který by na základě pouze tří expresí dokázal poměrně dobře určovat, o jaký typ leukémie se jedná. Původní data obsahovala 7129 expresí. Data z (Golub et al. (1999). Molecular classification of cancer: class discovery and class prediction by gene expression monitoring, Science, Vol. 286:531-537)
Nejčastější dataminingová úloha je úloha klasifikační, kdy hledáme zákonitosti v datech, která poukazují na kategoriální znak. Například máme-li v historických datech příznak maligního nádoru (pozitivní / negativní) je cílem zkonstruovat model předpovídající onemocnění pro nové pacienty, u kterých tato informace ještě není známa, neboť ještě nebyli diagnostikování nákladnější metodou. Jelikož modely neposkytují pouze striktní odhad kategorie ale i skóre, které podchycuje pravděpodobnost skutečné příslušnosti do rizikové skupiny, můžeme tak nalézt ohroženou skupinu pacientů s největším rizikem onemocnění a lépe alokovat finanční a lidské zdroje pro vyšetřování nejvíce ohrožených pacientů.
V dataminingu se řeší i další úlohy jako je predikování číselné proměnné nebo hledání datově podobných skupin záznamů nesupervizovaně, tj. že na rozdíl od regresní nebo klasifikační úlohy neexistuje nadřazená zkoumaná proměnná (supervizor), ale přistupujeme ke všem proměnným stejně a vytváříme co nejvíce homogenní skupiny, které jsou vůči sobě co nejvíce rozdílné.

Obr. 4: Volba scénáře ROC křivkou (ilustrační data). ROC křivka umožňuje vybrat meze pro ohodnocení diagnózy. V levém scénáři bychom pomocí skórovacího klasifikačního modelu chybně označili 20 procent zdravých pacientů (1-specifičnost), ale správně podchytili 60 procent nemocných pacientů (senzitivita). Pravý scénář sice přiřadí nemoc 50-ti procentům zdravých pacientů, ale zachytí už téměř 90 procent nemocných. V medicíně je nezbytné přistupovat ke specifičnosti opatrně, neboť podíl nemocných pacientů je v populaci malý a i pár procent špatně zařazených zdravých jedinců (false positive) může být neúnosně velký.
Rozvoj analýzy dat ve zdravotnictví
Statistické zpracování dat je vzhledem k rostoucímu objemu vstupních dat a zdánlivé komplexnosti požadovaných metod občas považováno odborníky ve zdravotnictví za příliš náročné. Opak je ale pravdou. Právě lidé ze zdravotnictví obvykle disponují možnostmi analyzovat data, a zároveň při jejich zpracování dodržují nezbytnou pečlivost. Díky moderním snadno ovladatelným softwarovým prostředkům mohou sami provádět základní analýzy a ověřovat předpoklady. Popřípadě rychle konzultovat svou situaci s analytiky, kteří mají příslušné teoretické znalosti, a dosáhnout tak svých cílů ať už jde o vědeckou činnost nebo zefektivnění práce.
![]() |
Vojtěch Skubanič Autor článku je lektor, analytik a odborný konzultant společnosti ACREA CR, která na našem trhu dodává produkt IBM SPSS Modeler, ve kterém byly vytvořeny všechny ukázky použité v článku. |


![]() ![]() | ||||||
Po | Út | St | Čt | Pá | So | Ne |
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 1 | 2 | 3 | 4 |
5 | 6 | 7 | 8 | 9 | 10 | 11 |
Formulář pro přidání akce
15.5. | Konference SCADA Security |
22.5. | Akce pro automobilové dodavatele "3DEXPERIENCE... |
12.6. | Konference ABIA CZ 2025: setkání zákazníků a partnerů... |
29.9. | The Massive IoT Conference |