Nová verze modulu ATM pro zpracování nestrukturovaných textových dat

Společnost ACREA CR vydala novou verzi textminingového modulu ATM, který je doplňkem univerzálního softwaru SPSS Modeler pro datové vědce. Modul ATM rozšiřuje možnosti SPSS Modeleru o zpracování nestrukturovaných textových dat. ATM nabízí především prostředky pro analýzu textových dokumentů. Umožňuje také zpracovávat a kombinovat strukturovaná databázová data a volné texty. Nabízí pestrou škálu procedur pro datové manipulace při přípravě strukturované kolekce textových dokumentů.



S uzly modulu ATM se pracuje stejně jako s nativními uzly SPSS Modeler. Celý analytický postup se zaznamenává jako diagram (proud), v němž si jednotlivé uzly předávají data. Nová verze ATM 3.0 přináší vylepšení stávajících uzlů a také nabízí dva nové výstupní uzly: náhled na kolekci dokumentů ve formě interaktivních snippetů a obrázek četných termínů známý pod názvem oblak slov. V jazykově závislých uzlech pro extrakci termínů, pojmenovaných entit a klasifikaci sentimentu přibyla možnost zpracovávat multijazyčné kolekce s omezeným výběrem jazyků. V uzlu pro extrakci termínů má uživatel možnost volit množství relevantních termínů extrahovaných z každého dokumentu. Při hledání pojmenovaných entit se můžeme omezit pouze na hledání osob, organizací a lokalit nebo hledat i obecnější entity jako jsou události či produkty. Sestavování regulárních výrazů je opět snazší díky vylepšené grafické kalkulačce pro vkládání zástupných symbolů. A nakonec výčtu vybraných nových funkcí jmenujme rozšířený výběr editačních vzdáleností pro porovnávání podobnosti dvou textů.

Acrea

Vylepšení se nevyhnula ani algoritmům v pozadí jednotlivých uzlů. Paralelní a dávkové výpočty u jazykově závislých uzlů jsou nyní standardně podporovány a uživatel nemusí volit jejich parametry, neboť se automaticky nastaví tak, aby zpracování proběhlo co nejrychleji. Optimalizováno bylo i vyhledávání pomocí regulárních výrazů.

Nový textminingový modul ATM 3.0 nabízí uživatelům SPSS Modeler komfortní prostředí pro práci s českými a slovenskými texty. Uživatelé mohou nejen analyzovat obsah dokumentů pomocí extrakce klíčových termínů a pojmenovaných entit, ale především díky integraci s SPSS Modeler, mohou textové dokumenty převést na datovou tabulku a dále pomocí strojově učených modelů řešit textminingové klasifikační, vyhledávací a segmentační úlohy jako například třídění pošty, analýzu stížností nebo identifikaci autora.
 


 
  

- PR -

Proč je EDITEL vaší nejlepší volbou pro povinnou e-Faktúru na Slovensku?

Od 1. ledna 2027 čeká slovenské plátce DPH povinná B2B e-fakturace ve strukturovaném formátu EN 16931 (UBL/Peppol BIS 3) s doručováním přes síť Peppol. EDITEL je na změnu připraven už dnes – nabízí certifikovaný Peppol Access Point, komplexní řešení včetně archivace a hladký přechod bez zbytečných komplikací, navíc s technickou podporou 24/7.

  

- PR -

Čeští zaměstnanci už AI běžně používají,

ne vždy však bezpečným způsobem


Umělá inteligence se stává běžnou součástí pracovních procesů. Dokazují to lednová čísla ČSÚ, podle kterých 18 % českých podniků s více než 10 zaměstnanci používá AI. Nejčastěji ji využívají velké firmy, a to dokonce více než polovina z nich. Spolu s popularitou umělé inteligence však přichází i negativní fenomén tzv. shadow AI. Jedná se o firmou neschválené využívání AI nástrojů, které může vyústit až v únik firemních dat.