- Přehledy IS
- APS (20)
- BPM - procesní řízení (22)
- Cloud computing (IaaS) (10)
- Cloud computing (SaaS) (33)
- CRM (51)
- DMS/ECM - správa dokumentů (20)
- EAM (17)
- Ekonomické systémy (68)
- ERP (77)
- HRM (27)
- ITSM (6)
- MES (32)
- Řízení výroby (36)
- WMS (29)
- Dodavatelé IT slueb a řeení
- Datová centra (25)
- Dodavatelé CAD/CAM/PLM/BIM... (39)
- Dodavatelé CRM (33)
- Dodavatelé DW-BI (50)
- Dodavatelé ERP (71)
- Informační bezpečnost (50)
- IT řeení pro logistiku (45)
- IT řeení pro stavebnictví (26)
- Řeení pro veřejný a státní sektor (27)
ERP systémy
CRM systémy
Plánování a řízení výroby
AI a Business Intelligence
DMS/ECM - Správa dokumentů
HRM/HCM - Řízení lidských zdrojů
EAM/CMMS - Správa majetku a údrby
Účetní a ekonomické systémy
ITSM (ITIL) - Řízení IT
Cloud a virtualizace IT
IT Security
Logistika, řízení skladů, WMS
IT právo
GIS - geografické informační systémy
Projektové řízení
Trendy ICT
E-commerce B2B/B2C
CAD/CAM/CAE/PLM/3D tisk![]() | |
| Přihlaste se k odběru newsletteru SystemNEWS, který kadý týden přináí výběr článků z oblasti podnikové informatiky | |
![]() | |
Text mining
Dobývání znalostí z českých textů
Chceme-li vyuívat informační potenciál big dat, je nezbytné zabývat se i daty nestrukturovanými. Nestrukturovanými daty rozumíme volné texty, zvukové nahrávky, obrázky a videa. V následujícím textu se zaměříme na data textová a popíeme, jaké úlohy řeí text mining.

Řeíme-li textminingovou úlohu, předmětem naeho zájmu budou textové dokumenty. Můe se jednat o tiskové zprávy, záznamy z kontrol, odpovědi na otevřené otázky, recenze atd. Mnoinu vech dokumentů nazýváme kolekcí.Podobně jako v data miningu se i v text miningu snaíme extrahovat z naich predikčních objektů uitečné atributy, které zuitkujeme při předpovídání pomocí modelů získaných strojovým učením.
Běné textminingové predikční úlohy se dají rozdělit do tří skupin. Nejčastěji se setkáme s úlohou klasifikační. Při klasifikaci dokumenty třídíme do předem známých skupin. Například příchozí poadavky od zákazníků chceme automaticky rozdělit mezi kompetentní osoby k jejich vyřizování. Velmi populární úlohou je dnes i klasifikace sentimentu, kdy dokumenty dělíme podle postoje mluvčího na pozitivní, neutrální, negativní a ambivalentní s přítomností jak pozitivního, tak negativního sentimentu. Díky klasifikaci sentimentu jsme například rychle schopni identifikovat stínosti a nespokojené zákazníky a prioritně se jim věnovat.
Pokud skupiny dokumentů nejsou předem známy a teprve je chceme v kolekci identifikovat, řeíme úlohu seskupovací. Například kolekci nových recenzí chceme rozdělit nejen podle sentimentu, ale i podle předem neznámých předmětů recenze.
Třetí textminingová úloha je notoricky známá, jedná se o vyhledávání dokumentů v kolekci na základě podobnosti se zadaným dotazem. Zřejmě není nutné zde popisovat příklad vyhledávání na internetu.
V praxi se mnohdy setkáváme s úlohami, kdy předmětem zájmu není samotný textový dokument, ale dokument je zdrojem informací v jiné predikční úloze. Například v běné dataminingové úloze předpovídáme odchod zákazníka ke konkurenci a k dispozici máme přepisy hovorů z call centra nebo jinou komunikaci se zákazníkem. I v tomto případě budeme z textových dokumentů extrahovat uitečné atributy pomocí textminingových postupů. Extrahované atributy obohatí mnoinu atributů získaných z databázových strukturovaných dat a umoní zpřesnit běné dataminingové predikční modely.
Extrakce atributů z textových dokumentů
Atributy extrahované z volného textu nám umoní dokumenty strukturovaně reprezentovat. Získáme datovou matici dokumentů. Kadý řádek matice reprezentuje dokument, kadý sloupec zastupuje jeden extrahovaný atribut a buňky v matici kvantifikují míru zastoupení atributu v dokumentu.
Obr. 1: Strukturovaná reprezentace kolekce pomocí matice dokumentů
Polome si klíčovou otázku: Jaké atributy budeme z dokumentů extrahovat, abychom co nejlépe vyřeili konkrétní predikční úlohu? Máme celou řadu moností, záleí, jakým úhlem pohledu na dokumenty nahlííme.
Dokument můeme povaovat za mnoinu znaků. Má svoji velikost, určenou počtem znaků, a četnostní distribuci jednotlivých znaků. Běné evropské jazyky pouívají řádově desítky znaků, zřejmě nebude nutné uvaovat vechny znaky, které nabízí Unicode. Abeceda českého jazyka se sestává ze 42 písmen včetně spřeky Ch. Reprezentace dokumentu pomocí četností písmen tedy nepřináí problémy.
Obr 2: Četnostní distribuce písmen české abecedy ve větě: Na mezinárodním letiti v chilské metropoli Santiago de Chile v pondělí uprostřed dne skupina lupičů přepadla bezpečnostní dodávku s penězi.
Proti reprezentaci dokumentů pomocí četnosti písmen určitě kadý namítne, e pořadí znaků v dokumentu hraje klíčovou roli. Přeuspořádáním znaků by vznikl úplně jiný dokument. Jakmile přihlédneme k pořadí, dostaneme se do problémů s počtem moných znakových sekvencí. Ten roste exponenciálně s délkou dokumentu. Kompromisním řeením se jeví sledování jen krátkých sekvencí pevné délky. Říká se jim písmenné n-gramy, n značí délku sekvence. I při tomto omezení se budeme potýkat s vysokým počtem sledovaných atributů. Například tri-gramů můeme v četině zkonstruovat 74 088. Větina z nich se ale v českých textech nevyskytuje, nebo se vyskytuje jen zřídka, a proto i tato jednoduchá reprezentace dokumentů si nala své uplatnění například při klasifikaci jazyka dokumentu ve vícejazyčných kolekcích.
Obr 3: Nejčetnějí trigramy v celém článku začínajícího větou z předchozího obrázku. Článek je dlouhý 1496 znaků bez mezer.
Pokud si čteme nějaký dokument, nesledujeme, jaká písmena a n-gramy se v něm vyskytují. Dokumenty se pro nás skládají ze slov, na jejich pořadí záleí, slova jsou uspořádána do vět, věty mohou tvořit souvětí. Tím se dostáváme na pole jazykově závislé lingvistiky, původní písmena jen slouí k záznamu vyích lingvistických entit, které bychom z textů rádi extrahovali a pouili je jako atributy ve strukturované reprezentaci dokumentů. V rámci lingvistického pohledu můeme na text nahlíet nejméně ve čtyřech rovinách: lexikologické, morfologické, syntaktické a sémantické.
Obr 4: Nejčetnějí slova v článku bez filtrace. Článek je dlouhý 259 slov.
Lexikologie a morfologie se zabývají slovní zásobou a tvaroslovím, tj. skloňováním a časováním. S jejich pomocí extrahujeme z dokumentů slova, jsme schopni stanovit jejich základní tvar zvaný lemma a případně určit morfologické kategorie, jakými jsou pád, číslo, způsob, čas atd. Také můeme ve slovech identifikovat morfémy, tedy předpony, kořeny, přípony a koncovky. Lexikologické a morfologické postupy nám v text miningu nabídnou reprezentaci dokumentů pomocí slov, slovních kořenů nebo lemmat. Podobně jako u písmenných n-gramů budeme muset bohuel řeit problém s počtem sledovaných atributů. V českém jazyce najdeme na 300 000 slovních kořenů a například Slovník spisovného jazyka českého ukrývá 192 000 hesel v základním tvaru.
V syntaktické rovině zkoumáme slovní druhy a jejich spojování do vyích celků. Syntaktická analýza zachycuje věty pomocí stromových struktur. Díky nim můeme z dokumentů extrahovat víceslovné termíny se specifikovanými vazbami mezi slovními druhy. A samozřejmě i v této rovině vyvstává problém s počtem moných víceslovných termínů. Jejich nemalý počet by se asi těko odhadoval.
Obr 5: Vybrané termíny v základním tvaru a jejich skóre důleitosti ve větě: Na mezinárodním letiti v chilské metropoli Santiago de Chile v pondělí uprostřed dne skupina lupičů přepadla bezpečnostní dodávku s penězi.
Díky pestré slovní zásobě jsme schopni vyjádřit stejnou mylenku různými slovy a termíny. Mylenky a témata dokumentů představují ty nejinformativnějí atributy, které bychom rádi z dokumentů extrahovali. Dostáváme se tak do sémantické roviny. Dokumenty si představujeme jako mnoiny slov, která vznikla díky latentním tématům stojícím v pozadí dokumentů. Pomocí speciálních modelů latentních témat jsme schopni detekovat, jaká témata generovala dokumenty v kolekci, a kvantifikovat intenzitu těchto témat. Předností latentních témat je i to, e jich nebývá mnoho a nemusíme tak naléhavě řeit redukci počtu extrahovaných atributů. Nutno vak poznamenat, e extrakci témat předchází extrakce slov, kde problém s počtem atributů řeit musíme.
Redukce dimenzionality
V jakékoli textminingové úloze je díky rozmanitosti přirozených jazyků nezbytné řeit zásadní problém s redukcí počtu atributů. V mení míře se s tím setkáme i v klasickém data miningu. Atributy můeme buď vybírat, nebo je transformovat na nové, jich je méně. Větinou redukci počtu atributů děláme v několika postupných krocích a kombinujeme tak metody výběrové a projekční.
Prvotním krokem bývá četnostní výběr atributů. Slova, termíny či n-gramy, které se vyskytují téměř ve vech dokumentech nebo naopak jen velmi zřídka, nebudou mít dostatečnou diskriminační schopnost a můeme je zanedbat. Mezi četnostní výběr lze zařadit i filtrování stop slov. Jsou to zpravidla předloky, spojky, částice a některá zájmena, je se vyskytují ve větině dokumentů a nenesou věcný význam. Obvykle je vak neidentifikujeme podle četnosti, ale máme k dispozici jejich seznam pro konkrétní jazyk.
Dále můe následovat filtrování termínů podle jejich důleitosti pro predikci. Pokud naím úkolem je dokumenty seskupit, budeme u kadého atributu zkoumat míru, jakou přispívá k měření podobnosti. Chceme-li dokumenty klasifikovat, změříme, jak hodně atribut diskriminuje jednotlivé cílové kategorie.
Rozhodneme-li se pro redukci počtu slov, můeme se opřít o morfologickou analýzu a pozorované slovní tvary nahradit kořeny nebo lépe lemmaty. K tomu ale ji budeme potřebovat lingvistické zdroje pro český jazyk, zde minimálně morfologický slovník. Pokud vak lingvistickými zdroji disponujeme, lze dále slova a termíny slučovat na základě jejich příbuznosti. K tomu nám pomůe například slovník synonym, tezaurus nebo ontologie.
V syntaktické rovině zase můeme filtrovat termíny podle jejich vazeb. Například se omezíme jen na jmenné vazby a dále vybereme jen přívlastky shodné. K syntaktické analýze také budeme potřebovat specifický lingvistický zdroj, a to gramatiku.
Chceme-li z pozorovaných atributů zkonstruovat atributy nové, můeme je například seskupit podobně, jako seskupujeme dokumenty či jiné objekty. Datovou matici stačí transponovat a pro účely seskupování tak dočasně zaměnit roli řádků a sloupců. Skupiny sloučených atributů pak nahradí původní nesloučené atributy.
Sémantickou analýzu dokumentů můeme té povaovat za extrakci nových atributů a redukci dimenzionality. Modely latentních témat nabídnou intenzity zastoupení jednotlivých témat v dokumentech a témata, jich je mnohem méně ne slov, původní slova nahradí.
Obr. 6: Model latentních témat generujících slova v dokumentech.
Kdybychom se měli zabývat jednotlivými algoritmy pro extrakci a redukci atributů z textových dokumentů, potřebovali bychom na to spíe knihu ne článek. Natěstí ale mnohé postupy jsou implementovány a můeme je jen vyuívat. Vývoj jazykově závislých lingvistických procedur pro český jazyk je bohuel pozadu oproti procedurám pro angličtinu a dalí světové jazyky. Ale i na naem českém trhu se objevují první vlatovky. Jednou z nich je textminingový modul ATM určený pro dataminingové softwary SPSS Modeler a PS Clementine. Sám o sobě zatím ATM umí klasifikovat sentiment a extrahovat termíny z textových dokumentů. Díky spojení s ostatními dataminingovými procedurami vak celý systém nabízí nejen komplexní řeení běných textminingových úloh, ale je i nástrojem pro vývoj predikčních modelů, kde se kombinují strukturovaná a nestrukturovaná data.
Obr. 7: Dialog procedury klasifikace sentimentu v textminingovém modulu ACREA Text Mining
Zdroj:
V ukázkách pod obrázky je pouit zpravodajský text z článku na webu idnes.cz
![]() |
Mgr. Ondřej Háva, PhD. Autor článku je Senior Data Scientist ve společnosti ACREA CR. |





















