facebook LinkedIN LinkedIN - follow
IT SYSTEMS 6/2013 , AI a Business Intelligence

Rozhovor: Martin Pavlica, Corpus Solutions

„Oblast nestrukturovaných dat je zahalena spoustou mýtů“



Corpus SolutionsFirma Corpus Solutions působí na trhu řadu let jako dodavatel bezpečnostních aplikací a specializovaných systémů pro státní správu. Stojí například za on-line obchodním rejstříkem, z poslední doby je s ní spojen projekt i-zakazky.cz pro Českou poštu. Do vod nestrukturovaných dat se firma pustila až v posledních několika letech, a možná i proto byl rozhovor s Martinem Pavlicou o možnostech jejich využití i problémech, které jsou s tím spojeny, příjemně otevřený a bez zbytečných příkras.


O nestrukturovaných datech se dnes hodně mluví a řada výrobců je v této oblasti velmi aktivní. Co je podle vás důvodem, jakou přidanou hodnotu může analýza nestrukturovaných dat nabídnout zákazníkům?
Podle mě přišlo uvědomění, že většina IT pomáhá byznysu jen minimálně. V klasickém pojetí se IT stará o data, jejich pořizování, správu, zálohování, bezpečnost atp. Byznys na druhou stranu potřebuje pomoc s rozhodováním, a to leží v informacích a znalostech. Existuje tedy fundamentální rozdíl mezi částí IT, která se stará o data, a částí, která se stará o vyšší úroveň informací a znalostí. A právě zde hrají roli nestrukturovaná data, ve kterých, jak to vnímáme my, leží většina informací, které pokud dokáže zákazník analyzovat, může získat konkurenční výhodu.


Do jaké míry je analýza nestrukturovaných dat komplementární s poptávkou podniků? Na straně nabídky výrobci lákají na systémy schopné pracovat s texty, videem, hlasem...
Oblast nestrukturovaných dat obecně je zahalená různými mýty a panuje zde plno „hypů“. Výrobci mnohdy nastavili vysoká očekávání, kterým běžný zákazník jen těžko rozumí a potom obtížné rozpoznává, co je a není podstatné. Upřímně řečeno, dnes jsme v éře textových dat. Možnost analyzovat video nebo hlas je zajímavá a může mít své využití, ale například video momentálně nemá komerční uplatnění. Pomineme-li speciální případy, jako jsou bezpečnostní služby, které potřebují analyzovat data napříč formáty, pak většina byznysových scénářů v této oblasti vychází z textových dat.

 


Pro takovou analýzu je klíčová podpora „lokálního“ jazyka. Řada výrobců proklamuje ve svých systémech její podporu. Je i tohle hype?
Podpora čeština je jedno z úskalí, se kterými se v této oblasti setkáváme. My jsme se všemi hlavními výrobci řešení pro nestrukturovaná data prošli fází testování a zkoušení, a zklamání mnohdy byla velká.


V čem je problém?
Ve světě strukturovaných dat, „klasického“ IT, mluvíme o systému podporujícím češtinu v případě, že umí vkládat české znaky z klávesnice, zobrazuje je, třídí a tiskne. Hotovo. V oblasti práce s informacemi je ale podpora jazyka úplně jiná oblast. Aby systém správně fungoval, musí rozumět výjimkám, tvarům slov, pojmům jako kořenotvorba, stemming, lemmatizace, musí umět poznat vlastní jména, barvy, značky aut atp. Je to oblast, která se zatím moc neaplikovala a její zvládnutí je zároveň spodní patro, ze kterého systém vytahuje informace a dává je do souvislostí. Není to úplně triviální oblast a jak na straně zákazníků, kteří nevědí, co obnáší, tak i na straně dodavatelů potom vznikají problémy. I my jsme se při testování setkali s tím, že systém sice rozumí jazyku, ale ne dost dobře. Systém se může naučit souvislosti, znalosti, ale ne jazyk. Například IBM pracovala na české verzi svého systému několik let, aby vše fungovalo tak, jak má.


Jak je to s rozpoznáváním mluveného slova, které je důležité například pro segmenty telco a bankovnictví?
Někteří výrobci tvrdí že rozpoznání řeči je triviální záležitost, že se jejich systém například při volání do call centra navíc učí a v hovorech nad čtyři minuty je schopen rozpoznat všechno. Tak to samozřejmě není. Je rozdíl „rozpoznávat“ školeného řečníka, který čte text, a řešit rozpoznání volání na call centrum, kde volající může mít různý přízvuk, vady řeči nebo používat slang. Na druhou stranu, přibližně osmdesát procent systému je dnes použitelných a zákazníkovi umí přinést velkou úsporu času s tím, jak roste objem zpracovávaných dat. Výhodu mají systémy, které slepě nerozpoznávají jazyk a nepřepisují jej na písmena a slova, ale mají znalost ustálených slovních spojení a rozumí tomu, že daný hovor je z konkrétní oblasti, například práva, IT atp. Jakmile tohle systém dokáže, nenahradí správné slovo podobným.


Předpokládejme, že máme systém, který jazyku rozumí výborně. Jaké jsou další faktory, jimiž se od sebe systémy liší, a kterým z nich by měl zákazník věnovat pozornost?
Důležitým faktorem je schopnost přijmout informace z vnějšku, od uživatele. Nad samotným vyhledáváním, které rozumí jazyku, stojí vrstva, která pracuje se souvislostmi. Pak je další vrstva, která zákazníkům umožňuje vložit svůj vlastní nadefinovaný set dat, který říká: tady je seznam mých firem, konkurentů atp. Ideální je stav, kdy si uživatel v nejvyšší vrstvě může sám do systému přidávat své vlastní znalosti či vazby a systém to při vyhledávání zohledňuje. Je tedy velký rozdíl mezi běžným hledáním informací a systémem vyhledávajícím na základě definovaných znalostí. To dnes hodně zákazníků nevnímá, že je celá tato oblast o budování znalostí, sdílení informací. A to musí kvalitní systém umožnit.

 

Klíčové je najít přínosy pro byznys

Jaké jsou nejčastější scénáře využití analýzy nestrukturovaných dat?
Scénářů je celá řada. Vždy záleží na tom, jestli má firma datový sklad a chce jej rozšířit o vytěžování nestrukturovaná informací, nebo má projekt, který nezohledňuje strukturovaná data a potřebuje analyzovat nestrukturovaná data úplně nově. Často jsou scénáře odvozovány z competetive intelligence, tedy zjišťování informací o vlastní firmě, zákaznících, partnerech konkurentech a podobně. Rozvíjí se také vytěžování informací ze sociálních sítí, příspěvků, blogů, diskusí atp. Firmy by rády pracovaly se sentimentem, tedy vyhodnocením nálady vůči něčemu.


To jsou všechno aplikace v oblasti obchodu. Jedno z hlavních zaměření vaší společnosti je bezpečnost. Dochází k nějakému průniku těchto témat?
Určitě. Typickým příkladem je oblast úniku citlivých informací a dokumentů. Systémy, které dnes fungují na trhu, běžně analyzují dokumenty z hlediska formátu, který uniká. Jsou schopny říct, odkud kam se přesouvá soubor typu word, excel, PDF atp. Nasazením analýzy textu jsem schopen systém naučit, aby rozuměl obsahu. Ve vyšší fázi je systém schopen i při vynechání většiny klíčových slov poznat, o jaký dokument se jedná na základě jeho charakteru a souvislostí, to znamená, zda jde o nabídku, ceník atp. Tím pádem jsme schopni získat dodatečné informace a lépe řešit bezpečnostní situace.

 


S jakými překážkami se setkáváte při projektech zahrnujících analýzu nestrukturovaných dat?
Jako všude jsou úskalí v detailech. Projekty většinou nejsou o mohutných systémech a analýzách, byznys potřebuje obvykle několik málo reportů. Jako hlavní úskalí u zákazníků vidím problém posunutí vrcholových zadání směrem dolů v organizaci. Firmy sice na strategické úrovni vědí, co chtějí, ale nemají nikoho, kdo to umí zformulovat a zadat dodavateli technologie. Výsledné řešení je z velké části o službách, jejich definování a v neposlední řadě práci s rolemi. Najít vhodný byznysový scénář není z těchto důvodů jednoduché. Z pohledu dodavatele je proto důležité mít skupinu konzultantů, kteří stojí na rozhraní technologie a byznysu, kteří mají přemýšlení podnikatele, kteří se dokáží vcítit do dané role ve firmě a se znalostí technologie navrhnout postup.


Jaký bude podle vás vývoj v nejbližších letech?
Jak už jsem řekl, nyní se nacházíme v období před masivní aplikací znalostních systémů pro rozpoznávání textů. Video vypadá zajímavě, ale stojíme na začátku a komerční využití v běžných podnicích momentálně nevidím. Otázkou samozřejmě je, co se stane v souvislosti s rozvojem sítí nové generace a zvyšováním propustnosti pásem. Procento multimediálního obsahu určitě bude stoupat. Jakmile tedy začnou například uživatelé sociálních sítí místo nahrávání fotek umisťovat na svoje stránky ve větší míře video, nahrané komentáře atp., pak bude analýza textu pouze částí příběhu. Ale tato doba je podle mého odhadu ještě několik let před námi.

Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.