facebook LinkedIN LinkedIN - follow
IT SYSTEMS 10/2020 , AI a Business Intelligence

Robotizace a kognitivní automatizace dokumentů

Díl 5: Jak vytěžit automatizaci zpracování dokumentů na maximum?

Tomáš Dolejš


INFOMATICVítejte u pátého dílu naší šestidílné série, která vás provází cestou nejnovějších trendů v multikanálovém snímání dokumentů a inteligentního OCR, s představením, jak umělá inteligence napomáhá v robotizaci a celkové automatizaci zpracování dokumentů a dat.


prvním díle jsme popsali, jakým způsobem robotizace umožňuje firmám řešit problémy s automatizací manuálních úkonů. Zároveň jsme vysvětlili důvod, proč kombinovat roboty se zpracováním dokumentů a proč je RPA technologie samotná pro tuto činnost neefektivní. V druhém díle jsme přiblížili technologii kognitivní automatizace dokumentů (CDA), která takzvanou „prací hlavou“ dokáže porozumět obsahu dokumentu nebo emailu a v nich obsaženým informacím, a dále rozhodnout, co s takovým dokumentem nebo emailem udělat. Zároveň jsme vysvětlili, proč je robotizace ve spojení s automatizací zpracování dokumentů tolik účinná pro zefektivnění obchodních procesů. Ve třetím díle jsme vám „naservírovali“ nákupní seznam funkcí, které by u vás při výběru nové technologie neměly chybět. Ve čtvrtém díle jsme odpověděli na otázku: „Jakým způsobem změřit úspěšné fungování nového řešení pro digitalizaci?“

V dnešní páté části budeme popisovat obvyklé věci, se kterými jsme za dvacet let implementací těchto řešení setkali u našich zákazníků a jsou zcela běžné při realizaci digitalizace. Pokud chcete úspěšně implementovat řešení pro automatizaci zpracování dokumentů, pamatujte, že cílem je produktivita uživatelů (přesnost + efektivita – viz. čtvrtý díl). Ostatně produktivita uživatelů je dnes hlavním motorem veškeré automatizace. Ať pomáháme uživatelům pomocným robotem, digitalizujeme firemní proces od A do Z nebo automatizujeme zpracování dokumentů a dat.

Nabízíme vám 13 tipů, jak zvládnout obvyklé trable a vytěžit automatizaci zpracování dokumentů na maximum. Níže uvedené tipy obsahují popis a zároveň i radu, jak konkrétní věc řešit. Doporučujeme znát odpověď na řešení těchto věcí, ať už budete vybírat jakoukoliv softwarovou technologii pro automatizaci zpracování dokumentů.

1. Zdroj obrázku

Zdroj obrázku ovlivňuje kvalitu obrazu a tím i úroveň klasifikace a přesnost vytěžení dat. Typický příkladem je několikrát kopírovaný originál dokumentu, následně skenovaný, nebo kopie originálního dokumentu na průklepovém papíru. Tyto typy dokumentů jsou často nečitelné samotným okem a logicky mají nižší kvalitu než například digitální PDF dokument obdržený emailem. Úroveň kvality obrazu je závislá i na samotném hardwarovém zařízení. Ta poskytují různé výsledky dle konkrétního zařízení a výrobce. Přemýšlejte také, zda jste vybaveni opravdovým dokumentovým skenerem či MFP zařízením, které v sobě skener má, nebo vám na stole stojí pouze tiskárna s možností osobního skenování.

2. Typ a rozlišení obrazového souboru

Některé typy obrazových souborů mají lepší vlastní kvalitu než jiné. TIFF s rozlišením 300 dpi jsou nejčastějším typem souboru v produkčním zpracování dokumentů, nicméně ne vždy budete schopni zkontrolovat, jaký typ souboru a v jakém rozlišení k vám přichází přes různé kanály z externích zdrojů. Obrazy dokumentů s nižším rozlišením budou mít logicky nižší úroveň klasifikace typu dokumentů a obsahu i přesnosti vytěžovaných dat. Pamatujte, že ideálním standardem, i s ohledem na výslednou velikost souboru, je 300 dpi (dots per image). Pod hranici 300 dpi se při zpracování dokumentů určitě nepouštějte.

3. Kvalita obrazu

S ohledem na kvalitu obrazu, můžeme pro automatizaci zpracování dokumentů snadno použít pořekadlo: „jak se do lesa volá, tak se z lesa ozývá“. Vícekrát faxované obrazy dokumentů; špatně snímané obrazy pomocí mobilního zařízení, které jsou zkosené, rozostřené nebo špatně osvětlené, dokumenty s razítky, čmáraninami, popisky uživatelů; dokumenty, které mají různé grafické pozadí a marketingové úpravy designu… všechny tyto skutečnosti mají samozřejmě vliv na přesnost určení typu dokumentu a vytěžování obsahu a dat. Nicméně nezoufejte. Profesionální softwarová řešení mají nástroje, jak obraz před zpracováním optimalizovat, jak navádět uživatele při snímání mobilním telefonem, aby držel telefon pevně, aby držel zařízení ve správném náklonu atd. Stejně tak dnešní software dokáže před odesláním do zpracování zkontrolovat kvalitu obrazu a případně vyzvat uživatele k opětovnému nasnímání.

4. Sběr dokumentů

Počet vzorových dokumentů a jejich podobnost s dokumenty, které budou skutečně zpracovávány, také ovlivňuje budoucí přesnost a míru automatizace. Pamatujte, že dnešní systémy se sami strojově učí a tedy platí, že čím více vzorů vašemu softwaru poskytnete, tím lépe se v automatizaci zpracování dokumentů naučí pracovat. Počet požadovaných vzorových dokumentů se pohybuje v rozmezí od několika kusů do stovek, v závislosti na typu dokumentu. Tyto vzory dokumentů mají co nejpřesněji odrážet to, co bude v budoucnu skutečně zpracováváno.

5. Strukturované formuláře

Strukturované formuláře mají obecně nejvyšší úroveň klasifikace a přesnosti vytěžování dat a vyžadují nejmenší počet vzorových dokumentů. Vzhled formuláře má však významný dopad na přesnost zpracování. Od vzdálenosti jednotlivých polí, prostoru pro vepsání znaku, naváděcích hrabiček, okének atd. k vedení uživatele při vyplňování, až po stínování polí. Je důležité uvažovat nad samotným vzhledem formuláře a mít možnost vzhled formulářů upravit pro maximalizaci výsledků implementovaného softwaru pro automatizaci zpracování.

6. Polostrukturované dokumenty

Polostrukturované dokumenty (jako jsou faktury, objednávky, nabídky a dodací listy) obecně vykazují nižší přesnost než strukturované formuláře. Různá řešení automatizace zpracování dokumentů mají různé přístupy k vyhledání požadovaných dat a některá jsou spolehlivější při hledání dat a jejich úspěšném vytěžení než jiná. Tyto dokumenty mívají vložené tabulky (např. řádkové položky faktury), více tabulek nebo tabulky v tabulkách, které mohou mít nižší míru přesnosti vytěžování než jiná běžná pole. Ověřte si, jak uvažované řešení dokáže vytěžovat složitější typy dat a zároveň, jak v případě nízké kvality výsledků (kvalita obrazu, složitost dat v tabulce atd.) lze uživatelem data doplnit = efektivita uživatele.

7. Nestrukturované dokumenty

Nestrukturované dokumenty, jako jsou emaily (obsah v jejich těle), dopisy a smlouvy, jsou nejnáročnější pro automatickou klasifikaci a vytěžení obsahu. Nicméně technologie jsou schopné dle obsahu poznat, zda vám píše zákazník se stížností, čeho se stížnost týká a zároveň jakou povahu samotné sdělení má. Technologie založené na umělé inteligenci, jako je zpracování přirozeného jazyka (NLP), v posledních letech navýšily poměr přesnosti vytěžování dat i pro tyto typy dokumentů. Tím jste schopni okamžitě v navazujícím procesu reagovat a eliminovat případnou ztrátu důvěry konkrétního zákazníka.

8. Typ tisku

Typ tisku v dokumentu také ovlivňuje míru přesnosti vytěžování. Obecně platí, že strojově tištěná pole mají nejvyšší míru přesnosti, následují ručně psaná tiskací písmena a na závěr text psaný. U strojového tisku ovlivňuje přesnost vytěžování také font použitého písma a mezery mezi znaky. OCR nástroj opravdu porovnává skladbu jednotlivých teček (pamatujte na DPI = rozlišení) v samotném znaku získaném z dokumentu oproti své vzorové databázi znaků. I samotný typ jazyka ovlivňuje míru přesnosti zpracování. Z praxe plyne, že nejpřesnější bývají pro zpracování jazyky založené na latince.

9. Čárové kódy a zaškrtávací pole

Čárové kódy a zaškrtávací pole obvykle vykazují nejvyšší přesnost vytěžování v dokumentu. Není neobvyklé, že se řešení pro automatizaci zpracování dokumentů chlubí přesností přes 90% pro vytěžení hodnoty čárových kódů a vytěžení zaškrtávacích polí. Používají se desítky typů čárových kódů, včetně 1D, 2D a nyní i 3D čárových kódů (2D s barvou). Ujistěte se, že nově zvolené řešení pro automatizaci zpracování dokumentů podporuje ty nejčastěji se vyskytující.

10. Podpisy

Jedním z hlavních důvodů, proč je stále pro mnoho dokumentů zdrojem papír, je požadavek na podpis konkrétního dokumentu. Zamyslete se, zda jsou ve vaší společnosti typy dokumentů, které by bylo možné vytvářet pouze elektronicky nebo podepisovat pomocí elektronického podpisu. Pokud dokážete u daného typu dokumentu určit, zda pro povahu dokumentu postačuje samotná přítomnost podpisu nebo zda potřebujete podpis snímaný s budoucí možností odhalení zfalšování a podvodu, pak lze implementací softwaru pro biometrické vytváření elektronického podpisu zvýšit celkovou produktivitu uživatelů a tím i celkovou automatizaci zpracování dokumentů.

11. Databáze

Klasifikaci a přesnost vytěžování obsahu výrazně zlepší využití různých databází. Při shodě s podobným obsahem v databázích lze vyřešit automaticky drobné chyby OCR. Výsledek? Menší zapojení lidí do procesu opravy výsledků OCR vytěžování. Obsah databáze často zahrnuje jména zákazníků, čísla účtů, číselníky, seznamy zaměstnanců nebo dodavatelů, čísla objednávek, nákladových středisek, různé slovníky pro specifická průmyslová odvětví a mnoho dalšího.

12. Pravidla

Dalším tipem, který umožní vyšší přesnost zpracování, jsou pravidla. Například kontrola, že mezisoučet plus daň se rovná součtu, je jednoduché pravidlo, které kontroluje chybu vytěžení nebo i samotného uživatele, pokud v daném poli přepíše hodnotu a udělá chybu. Zároveň kontroluje data na zaslaném účetním dokladu, zda sazba daně odpovídá konkrétní státní legislativě dokladu. Moderní systémy dokážou nad každým vytěženým polem spustit definovanou kontrolu. Další často využívanou je formátování, kdy cílové systémy očekávají určitý formát a je potřeba korigovat, byť správně vytěžená, data z dokumentu. Datum je zde klasickým případem. Bankovní účty využívají pravidla modulo pro správnost samotného účtu. Různé kontrolní součty dokáží automatizovat celé zpracování a urychlit i následující proces, týkající se například schvalování. Pokud systém sám propočítá a ověří data proti databázi, např. ERP systému, pak nemusíme dokument pouštět do schvalovacího kolečka a lze jej umístit rovnou do kroku zaúčtování/proplacení.

13. Cílové systémy

Řešení pro automatizaci zpracování dokumentů nejsou kompletní bez snadného způsobu odesílání dokumentů a dat do navazujících systémů, procesů a k lidem, kteří je potřebují. Produktivita uživatelů padá výrazně dolů, pokud jsou nuceni ručně přesouvat dokumenty nebo data mezi systémy. Tento úkol je jedním z typických příkladů zapojení robota do celkové automatizace a propojení RPA a CDA technologie. Robot s minimálním úsilím pro implementaci dokáže snadno přesouvat, integrovat a agregovat data mezi systémy. RPA technologie, obsahující uvnitř řešení pro automatizaci zpracování dokumentů, pak dokáže pokrýt celý proces zpracování včetně integrace tam, kde není k dispozici existující softwarové propojení systémů.

Příště…

posledním díle se podíváme za samotné hranice technologií RPA a CDA a zaměříme se na celkový pohled na transformaci celkových obchodních a firemních procesů a s tím spojených operativních kroků.

Tomáš Dolejš Tomáš Dolejš
Autor článku je ředitelem společnosti INFOMATIC.
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.

Inzerce

Transformace bankovnictví a pojišťovnictví v éře umělé inteligence

Umělá inteligence se stala hy­ba­te­lem digitální revoluce ve finančním sektoru. Přináší bezprecedentní možnosti automatizace, personalizace služeb a optimalizace rizik. Přestože potenciál AI je enormní, jen malá část bank má připravenou komplexní strategii pro její implementaci.