facebook LinkedIN LinkedIN - follow
PříLOHA 6/2001

Nové metody analýzy dat

Michal Nekvinda





Od té doby, co vznikly počítače a postupně se stále zdokonalovaly, docházelo rovněž k rozvoji statistických metod, které pracovaly s velkými objemy dat. Není těžké uhodnout, proč tomu tak bylo. Až do té doby bylo velmi složité ručně zpracovávat rozsáhlé soubory čísel, nebo jiných dat a bylo skoro nemožné provést byť i jen jednoduchou analýzu. S rozvojem výpočetní síly počítačů se toto odvětví rychle rozvíjelo a dospělo až do dnešní podoby, kdy počítače slouží nejen jako nástroj na provádění analýz, ale zároveň umožňují uložení dat a jejich zálohování.

Analýza dat představuje snahu zjistit, proč jsou daná data taková, jaká jsou. Pomocí různých metod se hledají obecné charakteristiky celého souboru dat, aby jej bylo možné popsat krátce, výstižně a pokud možno jednoznačně a dále, aby bylo možné odhalit některé evidentně existující avšak neviditelné souvislosti, případně, aby umožnily predikovat chování celého systému, který tato data poskytuje.

Všichni jistě dobře znají stanovování průměrů, rozptylů, odchylek, mediánů, modusů, kvartilových odchylek, vytváření kvantilů náhodných rozdělení, dále regresní a korelační analýzu, analýzu časových řad apod. Existují samozřejmě i pokročilejší metody analýz, jako jsou shluková analýza, diskriminační analýza, analýza rozptylu a kovariance, faktorová analýza, analýza hlavních komponent a další. Metod pro analýzu dat existuje takové množství, že by ani nebylo možné všechny vyjmenovat.

Nové metody ve zkoumání dat
Existuje však ještě jedna méně známá skupina metod, která vznikla teprve nedávno. Jedná se metody vycházející z teorie chaosu. Tato teorie předpokládá možnou existenci skrytých struktur uvnitř množiny dat, které jsou zodpovědné za chování celého systému. Tyto skryté struktury se navenek mohou projevovat zdánlivě náhodným chováním, ale při bližším zkoumání dojdeme k závěru, že chování celého systému poskytujícího daná data je přesně určeno a řízeno. Z pohledu teorie chaosu existují systémy náhodné, které neobsahují žádné vnitřní struktury nebo jsou příliš složité, dále systémy determinované, které jsou přímo určeny jednoduchým a viditelným předpisem, a nakonec systémy chaotické, které se navenek tváří jako náhodné, ale uvnitř existuje určitá struktura, která není na první pohled patrná. Z hlediska praxe jsou nejvíce zajímavé a také nejčastěji se vyskytující systémy náhodné a chaotické.

Systémy determinované jsou spíše zjednodušenou formou skutečných systémů a při zkoumání reálných dat se s nimi prakticky nesetkáme.

Chaotický neznamená náhodný
Nyní se podíváme na rozdíl mezi náhodným a chaotickým chováním. Jak bylo řečeno, oba typy systémů se navenek mohou chovat stejně a mohou poskytovat zdánlivě shodná data, ale při jiném pohledu je rozdíl více než patrný. Při zkoumání metod teorie chaosu jsme zjistili, že tomu tak opravdu je. Na obrázku (obr.1.) je srovnání průběhu časových řad, které jsou výsledkem chování náhodného a chaotického systému (obsahuje strukturu, která jednoznačně určuje jeho chování).

První obrázek je vytvořen generováním řady pseudonáhodných čísel na počítači. Druhý obrázek je vytvořen opakovanou iterací jednoduché rovnice yt+1 = 4*yt*(1-yt). Na první pohled vypadají obě řady podobně, jsou zdánlivě neuspořádané a náhodné. To však platí jen o první z nich. Ta je opravdu náhodná a další průběh není možné předpovědět. Avšak druhá časová řada je přesně určena rovnicí a její další hodnoty se předpovědět dají. Pro zajímavost nabízíme pohled na tyto dvě časové řady z jiného pohledu, kterým je zobrazení do prostoru 2D (obr.2.). Teď už je zcela jasné, která řada je náhodná, a která chaotická. Někdy jenom prosté zobrazení časové řady do dvojrozměrného nebo trojrozměrného prostoru může hodně napovědět o jejím charakteru.

Při zobrazení do prostoru kterékoliv dimenze (pro vizuální kontrolu připadají v úvahu pouze prostory 1D, 2D a 3D) jsou náhodná data rovnoměrně rozmístěna po celém prostoru. Lze říci, že náhodná data mají dimenzi rovnou prostoru, do kterého jsou zobrazeny, což ve své podstatě znamená, že jejich dimenze je nekonečná. Při přidávání dalších rozměrů bude vždy docházet k rovnoměrnému vyplňování všech jeho částí. Naproti tomu data chaotická vyplňují jen určité části prostoru (tyto oblasti se nazávají atraktory), do kterého jsou zobrazeny a jejich dimenze je konečná a s přibývajícím rozměrem prostoru, do kterého se chaotická data promítají, jejich dimenze již dále neroste. Záleží tedy na prostoru, ve kterém se daná data zkoumají. V teorii chaosu existují metody, které dokáží přímo měřit dimenzi dat. Všechny jsou založeny na výpočtu tzv. korelačního integrálu. Určením dimenze zkoumaných dat dokážeme rozhodnout, zda se jedná o data náhodná nebo chaotická. Dimenze chaotických dat není celočíselná (jako u dat náhodných), ale zlomková neboli fraktální (např. dimenze chaotického systému zobrazeného na obr. 1. a 2. je něco mezi 1 a 2 - tedy mezi přímkou a rovinou).

Chaotické chování v praxi
Během zkoumání metod teorie chaosu se zjistilo, že některé soubory dat opravdu vykazují chaotický charakter. Jednalo se např. o vývoj cen některých surovin nebo produktů na světových trzích, změny kurzů některých měn, kolísání cen akcií na světové burze apod. Snaha odhalit závislosti a pravidla pro další vývoj těchto veličin je zřejmá, uvážíme-li skutečnost, že se vždy jedná o peníze. A ten, kdo umí předpovědět další chování a vývoj cen a kursů, může dosáhnout obrovských zisků. Na tomto místě je třeba zdůraznit, že i po prokázání existence skrytých struktur uvnitř systému je možné předpovědět jeho další chování jen ve velmi krátkém horizontu, neboť chaotické systémy jsou velmi citlivé i na sebemenší změny a často i nepatrná odchylka v určitou dobu může způsobit totální kolaps celého systému. Tato skutečnost je velmi populárně nazývána jako motýlí efekt. Jedná se o situaci, kdy jedno mávnutí motýlích křídel kdesi nad Tichým oceánem způsobí za několik dní uragán v Indonésii.

Význam zjištění, zda se jedná o data náhodná nebo chaotická spočívá v tom, že při prokázání náhodnosti systému může vyloučit jakoukoliv možnost předpovědi dalšího chování. Dokonce lze říci, že náhodný systém je odolný vůči mírným změnám a vlivům okolí. Naproti tomu systém chaotický je velmi citlivý jednak na počáteční podmínky, ze kterých startuje, a jednak na jakékoliv nepatrné změny, které na něj mohou působit. Přesto však existuje šance na předpovězení jeho dalšího chování, ale tuto šanci je nutné posoudit podle složitosti celého systému a výši dimenze dostupných dat. Obecně platí toto tvrzení:

I z tohoto tvrzení vyplývá, že možnost předpovězení dalšího vývoje náhodných dat je mizivá, protože jejich dimenze je nekonečná. Při vývoji metod pro analýzu dat na základě teorie chaosu jsme podrobili zkoumání data velmi rozsáhlých systémů, jako jsou např. čísla Sportky losovaná od samého počátku, nebo data ze hry Šťastných 10. Bohužel, nepodařilo se nám prokázat existenci žádné vnitřní struktury, která by určovala budoucí chování celého systému. Zjistili jsme, že daná data jsou opravdu náhodná, přičemž tuto skutečnost potvrdilo několik různých metod.

Pozn.: Aautor pracuje jako analytik ve firmě Janouch a.s.


www.janouchnet.com


Inzerce

Modernizace IS je příležitost přehodnotit způsob práce

IT Systems 4/2025V aktuálním vydání IT Systems bych chtěl upozornit především na přílohu věnovanou kybernetické bezpečnosti. Jde o problematiku, které se věnujeme prakticky v každém vydání. Neustále se totiž vyvíjí a rozšiřuje. Tematická příloha Cyber Security je příležitostí podívat se podrobněji, jakým kybernetickým hrozbám dnes musíme čelit a jak se před nimi můžeme chránit. Kromě kybernetické bezpečnosti jsme se zaměřili také na digitalizaci průmyslu.