- Přehledy IS
- APS (20)
- BPM - procesní řízení (22)
- Cloud computing (IaaS) (10)
- Cloud computing (SaaS) (33)
- CRM (51)
- DMS/ECM - správa dokumentů (20)
- EAM (17)
- Ekonomické systémy (68)
- ERP (77)
- HRM (27)
- ITSM (6)
- MES (32)
- Řízení výroby (36)
- WMS (29)
- Dodavatelé IT slueb a řeení
- Datová centra (25)
- Dodavatelé CAD/CAM/PLM/BIM... (39)
- Dodavatelé CRM (33)
- Dodavatelé DW-BI (50)
- Dodavatelé ERP (71)
- Informační bezpečnost (50)
- IT řeení pro logistiku (45)
- IT řeení pro stavebnictví (26)
- Řeení pro veřejný a státní sektor (27)
ERP systémy
CRM systémy
Plánování a řízení výroby
AI a Business Intelligence
DMS/ECM - Správa dokumentů
HRM/HCM - Řízení lidských zdrojů
EAM/CMMS - Správa majetku a údrby
Účetní a ekonomické systémy
ITSM (ITIL) - Řízení IT
Cloud a virtualizace IT
IT Security
Logistika, řízení skladů, WMS
IT právo
GIS - geografické informační systémy
Projektové řízení
Trendy ICT
E-commerce B2B/B2C
CAD/CAM/CAE/PLM/3D tisk![]() | |
| Přihlaste se k odběru newsletteru SystemNEWS, který kadý týden přináí výběr článků z oblasti podnikové informatiky | |
![]() | |
Nejčastěji pouívané metody při analýze lékařských dat
Statistické studie jsou v medicíně nutností. Velmi malá část lékařů zpracovává svoje data bez pomoci odborníka, statistika. Vyhledáním jeho pomoci ovem práce odvedená lékařem nekončí. Oba toti mluví kadý naprosto odliným jazykem, proto je pro správnost závěrů analýzy nezbytné, aby se domluvili a vzájemně pochopili. V tomto příspěvku se seznámíme s nejobvyklejími statistickými postupy, které vyaduje analýza dat z lékařského prostředí.

Před samotným sběrem dat je důleité zváit, které parametry mohou mít souvislost se zkoumanými veličinami, a proto je vhodné je zaznamenávat. Kromě určení počtu parametrů je důleité také stanovit tzv. rozsah výběru, tedy kolik pacientů je třeba do studie zahrnout. Ze statistického pohledu je nutné, aby rozsah výběru byl tak velký, aby bylo dosaeno dostatečné síly testu, typicky kolem osmdesáti procent. Co to přesně znamená? Statistický test je ve své podstatě pravidlo, které na základě výsledků zjitěných ze vzorku dat předepisuje rozhodnutí o zamítnutí nebo nezamítnutí tzv. nulové hypotézy týkající se celé populace, z ní vzorek pochází. Závěry analýzy jsou platné vdy jen s určitou pravděpodobností, větinou je poadována pětiprocentní hladina testu povolující chybu, kdy dojde k zamítnutí ve skutečnosti platné nulové hypotézy maximálně v pěti procentech případů.
Síla testu je pak pravděpodobnost, e správně zamítneme nulovou hypotézu v případě, kdy opravdu neplatí. Pokud by byla síla testu malá, riskujeme, e neodhalíme neplatnost nulové hypotézy, a dojdeme tak k faleným závěrům. Vyí rozsah výběru zpravidla vede k vyí síle testu. Na druhou stranu je ale ekonomické, a proto ádoucí, aby rozsah výběru nebyl příli velký. Pokud se analýza zabývá porovnáním nějakých skupin, je vhodné, aby tyto skupiny měly v ideálním případě stejný nebo podobný rozsah.
Přípravná fáze analýzy, bez ohledu na to, s jakým softwarem pracujeme, vyaduje poměrně dobrou představu o metodách, které pro vyhodnocení získaných údajů pouijeme, a také znalost principů a matematické podstaty těchto metod. Statistické programy umí určit potřebný rozsah vzorku pro velmi malou skupinu statistických testů (viz příklad moného výčtu testů na obrázku níe) a při jejich modifikaci je dobré do přípravné fáze zahrnout i konzultaci statistika. Obecně se stanovením velikosti vzorku zabývá část statistiky s názvem analýza síly testu (poweranalysis).
Jakmile jsou k dispozici záznamy, je třeba se v nich zorientovat a zkontrolovat, e neobsahují chyby nebo odlehlá pozorování. Pro tyto účely nabízejí statistické programy bezpočet různých grafů a testů nebo tabulek.
Jaké úlohy lékaři řeí?
Jednou z nejběnějích otázek, na kterou lékaři potřebují odpověď, je porovnání dvou skupin pacientů například z hlediska výskytu komplikací po operacích. Například zda konkrétní typ operace provedené týmem nemocnice A bývá úspěnějí ne v nemocnici B. Pacienty po operaci sledujeme po zvolený čas a zaznamenáme, zda dolo nebo nedolo k výskytu komplikací. Souhrnně lze tyto údaje zapsat ve tvaru tzv. kontingenční tabulky, její příklad vidíme na obrázku.
| Nemocnice A | Nemocnice B | Celkem | |
| Komplikace | 10 | 15 | 25 |
| Bez komplikací | 45 | 30 | 75 |
| Celkem | 55 | 45 | 100 |
Tento typ úlohy řeí test s názvem Pearsonův chí-kvadrát test, který je zaloen na předpokladu, e pokud by úspěnost chirurgů byla v obou nemocnicích stejná, bylo by procento pacientů bez komplikací stejné v kadé z nemocnic, jako je v obou skupinách pacientů dohromady, tedy 75 procent. Pokud se relativní četnost pacientů bez komplikací v kadé z nemocnic nebude příli liit od 75 procent, závěrem testu bude, e jsou nemocnice srovnatelné, pokud se liit bude, dostáváme závěr, e chirurgové v jedné z nemocnic jsou úspěnějí.
Výstupem statistických programů je typicky hodnota chí-kvadrát statistiky, dosaená p-hodnota (p-value) testu (pokud je mení ne zvolená pětiprocentní hladina, nulová hypotéza e mezi skupinami není rozdíl a oba znaky, komplikace a vybraná nemocnice, jsou vzájemně nezávislé se zamítá, v opačném případě nulovou hypotézu nezamítáme).
Dalí častou úlohou je porovnání průměrné hodnoty nějaké spojité proměnné (např. věku) mezi dvěma či více skupinami pacientů. Pro tyto účely pouíváme v případě dvou skupin studentův dvouvýběrový t-test, v případě více skupin jeho zobecnění s názvem jednofaktorová analýza rozptylu (one-way anova). Obě metody je vhodné doplnit o krabicové grafy s průměrnými hodnotami podle skupin, co statistické programy často dělají automaticky představa o rozdílu mezi skupinami je tak názornějí.
Obr. 1
Obr. 2
Ilustrační obrázek (obr. 1) ukazuje, e ve skupině 0 je v průměru nií věk ne ve skupině 1 (dosaený průměrný věk je 42,4, respektive 45 let). Rozdíl byl shledán statisticky významný (dosaená p-hodnota testu p=0,0038 je mení ne pět procent). Je ale tento rozdíl i prakticky významný? Praktickou významnost zpravidla hodnotíme sestrojením 95procentního intervalu spolehlivosti pro rozdíl obou průměrných hodnot. Je-li tento interval úzký, máme poměrně jasnou představu o tom, jaký je pravděpodobný rozdíl mezi průměrným věkem obou skupin v rámci celé populace, pokud bude iroký, můe být rozdíl jak docela malý, tak poměrně vysoký. V uvedeném příkladě je 95procentní pravděpodobnost, e pacienti ve skupině 0 jsou v průměru nejméně o deset měsíců a nejvýe o čtyři a čtvrt roku mladí ne pacienti ve skupině 1.
Samozřejmostí je pro dnení softwary také ověření předpokladů těchto metod (ji dříve zmíněné normální rozdělení hodnot sledované proměnné a také přiblině stejný rozptyl těchto hodnot ve skupinách), pokud program vyhodnotí předpoklady jako nesplněné, vyuívá se místo uvedených metod jejich neparametrických alternativ (Mann-Whitneyův test či Kruskal-Wallisova analýza rozptylu). Jeliko se jedná o nejčastěji pouívané metody, jsou i tyto neparametrické postupy součástí základních statistických balíků, někdy se mohou názvy testů liit, ale vdy jsou k dispozici.
Poslední lékařskou analýzou, kterou bychom rádi zmínili, je analýza přeití (survival analysis). Pro tento typ analýzy je zpravidla třeba vyuít specializovaný statistický balíček, protoe pracujeme s cenzorovanými daty. Pacienty sledujeme po určitou dobu, například pět let po operaci, a zajímá nás jejich přeití. Pokud pacient zemře, zaznamenáme čas jeho úmrtí (od doby po operaci) a to, e pacient zemřel. Pokud pacient nezemřel, zaznamenáme čas, kdy jsme ho přestali sledovat (maximálně tedy pět let), a informaci, e v zaznamenaném čase lo o ijícího pacienta. Abychom pro analýzu vyuili maximum informace uloené v datech, je třeba vyuít záznamy jak ijících, tak zemřelých pacientů. To vyaduje speciální metody. Nejčastěji volený přístup pro grafické znázornění je Kaplan-Meierova křivka, pro statistické porovnání přeití u dvou či více skupin pacientů je pak vhodná varianta log rankového testu.
Seřadíme-li podle velikosti časy, v nich dolo podle naich záznamů k úmrtí pacientů, poskytuje Kaplan-Meierova křivka pro tyto doby pravděpodobnost, e pacient, který přeil některý z těchto časových okamiků, nezemře ani v okamiku bezprostředně následujícím. Na grafu vidíme porovnání dvou křivek přeití. Na první pohled je zřejmé, e z hlediska dlouhodobého přeití je na tom lépe skupina pacientů, jí odpovídá červená křivka přeití.
Lékaři a statistika
Je patrné, e lékaři se neobejdou bez dobré databáze a statistického programu, který pokryje metody a grafická schémata odpovídající typům prováděných analýz. I kdy třeba nebudou lékaři provádět vechny analýzy sami, je dobré, aby byli schopni na nějaké základní úrovni zvolený statistický program pouívat, aby zvládli úpravu tabulek a grafů a některé jednoduché rutinní analýzy. Často je třeba také pomoci statistického odborníka. Málokterý lékař má toti i odpovídající statistické vzdělání na takové úrovni, aby si poradil s nestandardními případy dat, nedostatkem pozorování a atypickými problémy, jimi se praxe jen hemí. Ke spolupráci je třeba vybírat pečlivě takové odborníky, kteří mají zkuenost s daty z lékařských oborů. Velice často je toti kamenem úrazu, e statistik-matematik a lékař naráí na obrovské potíe, kdy se snaí jeden druhému vysvětlit svůj pohled, potřeby a očekávání vkládané do spolupráce.
![]() |
Lenka Posch Autorka je konzultantkou a analytičkou firmy StatSoft. |





















