facebook LinkedIN LinkedIN - follow
Business Intelligence , AI a Business Intelligence

Big Data s pomocí vizualizace?



ProfinitOd počátku naši civilizace až do roku 2003 bylo vytvořeno kolem 5 exabajtů dat. Podobné množství dat nyní vyprodukuje lidstvo každé dva dny. Přitom se tempo růstu množství dat neustále zvyšuje. To v roce 2010 prohlásil na konferenci Techonomy tehdejší CEO společnosti Google Eric Schmidt. A také připustil, že svět ještě není na tuto datovou explozi zcela připraven.


Jak se svět neustále zrychluje, zvětšuje se také objem všemožných údajů, která je třeba sbírat, uchovávat a analyzovat a toto množství dat každým dnem nezadržitelně stoupá. Přitom je však stále složitější zachycovat, spravovat a zpracovávat data běžně používanými softwarovými prostředky v rozumném čase. A ještě složitější je vyvodit z těchto dat smysluplné závěry.

Časem třeba tato data budou zpracovávat pouze stroje a ne lidé. Ale než se tak stane, budeme muset právě my umět najít v ohromných kvantech dat ty správné souvislosti a zvládnout si data správně zobrazit tak, abychom z nich dokázali snadno vyčíst potřebné závěry. Právě v tomto nelehkém úkolu nám může pomoci vizualizace. 

Obr. 1: Příklad vizualizace dat – mapa rozložení obyvatel na území Spojených států, Zdroj: Flowingdata.com
Obr. 1: Příklad vizualizace dat – mapa rozložení obyvatel na území Spojených států, Zdroj: Flowingdata.com


Proč bychom měli data vizualizovat?

Smyslem vizualizace není jenom vytvořit hezké a vizuálně působivé grafy či diagramy. Ale pochopit a analyzovat data v enormně krátkém a dříve tak rozpoznat dosud skryté souvislosti, které bychom jinak snadno přehlédli.

Vizualizace nám v tomto ohledu může v dnešním přehlceném světě pomoci lépe zvládnout informační záplavu dat. Protože z vnímaných tvarů nebo barev totiž dokážeme často vytěžit mnohem více informací, než když tatáž data v tabulkách či ve formě textu přelétneme očima.

Samotný proces vizualizace je však komplikovaný proces, který skýtá mnohá úskalí, i když se to na první pohled tak nemusí jevit. Data jsou dnes totiž často uchovávána v různých formátech a my si s těmito rozdílnými formáty dat musíme umět poradit a správně je interpretovat. Přidejte k tomu další lokální specifika, jako jsou například přehozená čísla měsíců a dnů. Oddělovače tisíců. Přičtete k tomu všemu také duplicitní či chybné záznamy vznikající díky chybě lidského faktoru a dostáváte chaotickou změť čehosi, co je nutné přetavit do jednotné podoby dat, aby vůbec bylo možné s nimi dále pracovat a vizualizovat je do nějaké smysluplné podoby.

Celou analýzu dat vám pak mohou zkomplikovat složitější operace, mezi které lze zařadit křížové párování výpisů z účtu, jež mohou mít opačné znaménko (přírůstek, odchozí platba) a jiné datum vzniku (připsání na účet, odchozí platba z účtu). A to stále není vše, co vás může potkat.

Další komplikací může být také fakt, že většina vizualizačních nástrojů končí na desítkách tisíc objektů, které jsou schopné naráz na jednom digramu vizualizovat. Pokud i tak zvládnou data znázornit, výsledek vypadá například takto: 

Obr. 2: Vizualizace dat ze sociální sítě LinkedIn znázorňující vztahy mezi jednotlivými profily, zdroj: Forbes.com
Obr. 2: Vizualizace dat ze sociální sítě LinkedIn znázorňující vztahy mezi jednotlivými profily, zdroj: Forbes.com


Jen zobrazit data nestačí

Jak sami vidíte, z takovéto vizualizace se toho moc vyčíst nedá. Je proto nutné využít některý z postupů, které povedou ke zmenšení dat, jež budeme nakonec vizualizovat. K tomu nám může posloužit například zmenšení (zúžení) časového úseku. Například v případě masivního DDoS útoku víme, ve kterým dni k němu došlo a nepotřebujeme tak data celý vzorek dat zahrnující vytíženost serveru za celý poslední rok apod.

Obr. 3a, 3b: I takto krátký časový úsek (zvolen výsek cca 3 minuty) může postačit k získání základního přehledu o DDoS útoku na GitHub, zdroj: Thousandeyes.com
Obr. 3a, 3b: I takto krátký časový úsek (zvolen výsek cca 3 minuty) může postačit k získání základního přehledu o DDoS útoku na GitHub, zdroj: Thousandeyes.com

Vizualizace se však ne vždy týká jen paketů a síťových prvků. Podobným způsobem lze vizualizovat také emaily (a analyzovat tak vzájemnou emailovou komunikaci mezi více subjekty), dopisy, smlouvy, účty, telefony, SMSky, hovory, Twitter, Facebook, osobní setkání (například na základě lokací mobilních telefonů lze určit, jestli se dvě osoby mohly potkat), bankomaty, představenstva a dozorčí rady firem a jinými institucemi (a mapovat propojení mezi zkoumanými subjekty a analyzovat vazby mezi nimi), různé spolky a mnoho dalších entit, které nás zajímají.

Jak data vizualizovat?

Metod, jak vizualizovat data, je samozřejmě více. Nejčastěji se používají k zobrazení síťové grafy. Ty slouží k základnímu pochopení toho, v jakém vztahu jsou mezi sebou vybrané objekty (například účastníci vyšetřování). Samozřejmě nemůžeme opomenout také klasický flow diagram.

Obr. 4: Flow diagram zobrazující tok telefonních hovorů. Zdroj: Nfgsvat.com
Obr. 4: Flow diagram zobrazující tok telefonních hovorů. Zdroj: Nfgsvat.com

Dále je pak možné se setkat při vizualizaci s histogramy a agregovanými tabulkami, pro analýzu interakcí se využívají časové analýzy, které slouží ke zkoumání finančních převodů, emailů, nebo telefonních hovorů.

Obr. 5: Histogram na časové ose, zdroj: Nfgsvat.com
Obr. 5: Histogram na časové ose, zdroj: Nfgsvat.com

Z hlediska opakování událostí je zajímavá vizualizace 52*7. Kdy vytvoříme tabulku 7 x 52 políček, která symbolizuje rok - každý řádek je týden, sloupec je den v týdnu. Do této tabulky zapíšeme výskyty sledovaných událostí a rychle zjistíme, jestli data obsahují nějakou pravidelnost, či nikoliv.

Obr. 6: Vizualizace 52x7, zdroj: Visualanalytics.com
Obr. 6: Vizualizace 52x7, zdroj: Visualanalytics.com


Podobnou možnost nabízí také vizualizace kruhová, kterou používá mj. produkt SynerScope.

Obr. 7: Kruhová vizualizace - SynerScope, zdroj: Linkanalysisnow.com.
Obr. 7: Kruhová vizualizace - SynerScope, zdroj: Linkanalysisnow.com.

Pokud si myslíte, že jsou to všechna kouzla, která lze s daty dělat, pak se mýlíte. Nejnovější metody využívají 2D a 3D vizualizace (hojně využívané v kartografii) a 3D s časoprostorovou vizualizaci s GIS podkladem, kterých se právě využívá při analýze pohybu osob či automobilů.

Obr. 8: Takto může vypadat analýza závislostí mezi zkoumanými subjekty ve 2D prostředí, zdroj: Linkurio.us
Obr. 8: Takto může vypadat analýza závislostí mezi zkoumanými subjekty ve 2D prostředí, zdroj: Linkurio.us

Obr. 9: Ukázka 3D vizualizace – model výstavby budov ve městě v jednotlivých letech, zdroj: Directionsmag.com
Obr. 9: Ukázka 3D vizualizace – model výstavby budov ve městě v jednotlivých letech, zdroj: Directionsmag.com

Další v poslední době oblíbenou možností je vizualizace dat za pomocí videa, kdy si můžete prohlédnout třeba trasu zkoumaného objektu (motorového vozidla, osoby, cestu balíku od dodavatele k adresátovi). Značnou oblibu si také získávají interaktivní vizualizace dat. Dále se objevují také interaktivní vizualizace ovlivnitelné zákazníky, kdy jednoduše (namísto psaní složitého kódu v aplikaci) nastavíte pomocí myši v aplikaci požadovaná kritéria. Což samozřejmě šetří čas analytikovi, který s vizualizačním nástrojem musí dennodenně pracovat.

Webová anebo desktopová aplikace?

Když se na jednotlivé produkty umožňující vizualizaci dat podíváte blíže, zjistíte, že vizualizaci lze provozovat dvěma způsoby – jako webové řešení dostupné odkudkoliv a také jako desktopovou aplikaci. Každé z těchto řešení (online řešení vs desktop) přináší určité výhody a zároveň nevýhody, které si rozebereme níže.

Desktopová aplikace klade sice vyšší nároky na výkon pracovních stanic vyšetřovatelů. Ale na druhou stranu nabízí rychlou instalaci, schopnost zobrazit o řád více informací oproti webové verzi a možnost pracovat na projektech bez připojení k mateřské základně. Zároveň je u tohoto řešení obtížně zjistitelné, na čem uživatel pracuje, protože má svůj počítač plně pod kontrolou, což je žádoucí zejména u vyšetřovatelů. Je navíc možné využít napojení na další aplikace v systému, což vede k větší integraci a úsporám času.

Na druhou stranu webová vizualizace nabízí okamžitý přístup k informacím takřka odkudkoliv. Nezáleží na tom, jestli (a jaký) máte telefon, tablet, notebook, desktop - k vizualizaci se dostanete bez problému odkudkoliv.

Při volbě mezi desktopovou a webovou verzí je nutné vzít v potaz také to, jak budete s výsledky šetření pracovat. Pokud budete využívat webových vizualizací, pravděpodobně půjde projekt uložit na serveru. Bude ho možné ale vyexportovat v nějakém otevřeném formátu?

Stejnou otázku si ale položte i u desktopových vizualizačních nástrojů. Aby se vám nestalo, že nebudete moci přejít na jiný vizualizační nástroj jenom kvůli tomu, že by samotná migrace projektů by byla skoro nemožná anebo příliš časově a finančně náročná jenom kvůli obtížné transformaci projektů z jedno nástroje do druhého.

Jak vidíte, tak nelze jednoznačně říci, že první či druhá varianta je jednoznačně nejlepším řešením. Hodně se to odvíjí od požadavků a stylu práce samotných uživatelů. Na nich by pak mělo být, aby vybrali pro ně nejvhodnější model, který jejich potřebám vyhovuje nejvíce.

Víme, co děláme a co chceme?

Volbu mezi webem a desktopem neovlivňují jen faktory zmíněné výše, ale opět doména, ve které data zobrazujeme. Vizualizace je totiž velice široký pojem.

Budeme-li chtít zobrazit vývoj hrozeb za poslední rok v Evropě, sáhneme po specializovaném BI nástroji – jako je třeba Tableau. Půjdeme-li ale hledat na Twitteru radikály, kteří tweetují přímo z bojiště, nejspíš už se neobejdeme bez vztahové analýzy a třeba i GIS podkladů. Přesné požadavky budou záležet na tom, co chceme vizualizací dosáhnout. Bude to odhalení tábora radikálů? Pak jsou určitě vhodné GIS podklady, ideálně s čerstvými snímky z družic. Jestli ale půjde o případné spolubojovníky, zaměříme se čistě na vztahovou analýzu a na lidi, s kterými je dotyčný v kontaktu. Jestli se vám zdá tento příklad přitažený za vlasy, tak vězte, že je nemálo lidí, kteří už na sociálních sítích omylem „práskli“ důležité informace (izraelským vojákem počínaje a bojovníkem ISIS konče). Právě kvůli současné bezpečnostní situaci v souvislosti s Islámským státem jsou sociální sítě podrobně analyzovány tajnými službami už jen proto, že je radikálové úspěšně využívají k náboru nových bojovníků.

Jakým směrem se vydá vizualizace dat v budoucnu?

Způsobů, jak data vizualizovat, je nepřeberné množství. Nicméně v budoucnu se jistojistě objeví nové, neotřelé způsoby, některé možná i díky novým prostředkům pro zobrazování. A jakým směrem se možná bude ubírat obor vizualizace dat? Představme si vztahovou analýzu ve 3D s použitím virtuální helmy, nebo třeba s využitím hologramů. Zdá se vám to jako sci-fi? A věřili byste před deseti lety, že dnes budou auta schopná jezdit bez řidiče? Velký prostor pro vylepšení skýtá také oblast strojového učení, které se využívá jako pomůcka při vyšetřování k odhalení vazeb, které na první pohled vyšetřovatel nevidí, i přestože mohou hrát klíčovou roli. Zatím nám stroj pouze určí podezřelé a hlavní rozhodovací břemeno je na vyšetřovateli, jenž pak musí rozhodnout podle svého nejlepšího vědomí a svědomí. A právě zde by strojové učení mohlo výrazně usnadnit práci zejména všem vyšetřovatelům. Pokud by se stroje dokázaly naučit rozpoznávat to podstatné, co uživatelé hledají, znamenalo by to obrovskou úsporu času a hlavně lidských zdrojů. Jelikož strojům (na rozdíl od lidí), neunikne nic a dokáží vyhodnotit obrovské množství dat v daleko kratším čase.

Zatím je však ale riziko, že „automatizovaní robotičtí vyšetřovatelé“ špatně vyhodnotí data a způsobí tak více škody než užitku, natolik vysoké, že jen velmi málo bankovních institucí dnes přistupuje k automatickým blokacím podezřelých transakcí a účtů. K blokacím tak dochází až po ruční kontrole člověka, který je zatím stále nenahraditelný. Ale jak dlouho tomu tak bude?

Marek Sušický Ing. Marek Sušický
Autor článku pracuje na pozici Senior Advisor, Fraud management ve společnosti Profinit. Vystudoval obor Softwarové inženýrství na ČVUT FEL v Praze. Nejvíce zkušeností z oblasti počítačové bezpečnosti získal díky práci na dlouhodobém komplexním projektu pro přední českou finanční instituci. Nyní se naplno věnuje internímu produktu společnosti SVAT (www.nfgsvat.com), který slouží k vizualizaci dat z oblasti bezpečnosti.
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.


Inzerce

Jak si vedou české firmy v kybernetické bezpečnosti

Praktické zkušenosti z oblasti etického hackingu a penetračního testování

Komplexní zabezpečení pod­ni­ko­vé infrastruktury, počínaje výpočetními systémy přes úložná řešení, až po komunikační linky není jednoduchá záležitost. S větší či menší úspěšností se o to snaží každá organizace.