facebook LinkedIN LinkedIN - follow
PříLOHA 1-2/2002

Příprava projektů elektronického zpracování formulářů

Ing. Zbyněk Šonka


Předkládaný materiál shrnuje základní otázky, které by měl zvážit každý budoucí uživatel technologií elektronického zpracování dat se zvláštním přihlédnutím k problematice zpracování formulářů. Typickým příkladem hromadného zpracování formulářů může být zpracování daňových přiznání nebo vyhodnocení dotazníků při sčítání lidu nebo při nejrůznějších průzkumech, kdy jsou z konečného množství předem známých typů předtištěných předloh zjišťovány údaje vyplněné různým způsobem různými lidmi za nestejných podmínek. Klasické zpracování vykazuje v obdobných případech problémy s rychlostí a přesností zpracování, je třeba řešit komplikované úlohy uskladnění originálů, jejich oběh, pravidla přístupu k nim apod. Cílem automatizace pomocí technologií EDC/EDM (Electronical Document Capture, Electronical Document Management) je na jedné straně co největší potlačení negativních vlivů klasického zpracování, na druhé straně pak kvalitativní změna ve zpracování a hlavně v následném využívání získaných dat, v jejich sdílení a bezpečném uložení.


Praktickým důsledkem této změny může být například dramatické zkrácení doby mezi případným pochybením plátce daně a nápravou tohoto pochybení, ať už bude náprava jakákoliv, v jiných případech pak zpracování v takovém časovém horizontu, který umožní mnohem efektivnější využití získaných dat než klasický postup.

Předpoklady úspěšného zpracování formulářů
Technologická linka, na jejímž počátku jsou strojně nebo ručně vyplněné formuláře a na výstupu elektronický archív spolu s databází získaných údajů, sestává z řady spolupracujících prvků. Jedná se o natolik specializované komponenty, že v současné době není na světě výrobce, který by pokrýval výrobu všech částí linky. Z tohoto důvodu stoupá odpovědnost systémového integrátora, který sestaví jednotlivé komponenty od různých výrobců do sehraného a vyváženého systému.
 

Jaké je rozložení nákladů?
Obecně můžeme náklady na zpracování rozdělit na pořizovací a provozní. Existuje velké množství kombinací pro sestavení na první pohled funkční linky, tedy linky, která z dodaných vstupů nakonec dodá požadované výsledky. Dokonce se dá říct, že většina těchto kombinací bude mít přes použití rozdílných prvků velmi podobnou pořizovací cenu. Je tedy třeba věnovat prvkům linky zvláštní pozornost? Odpověď je jednoznačná. Uživatele totiž samozřejmě musí zajímat také otázka provozních nákladů, kdy řada zdánlivě nepodstatných detailů, opomenutých při „testování” v ideálních podmínkách, může dramatickým způsobem tyto náklady ovlivnit. V dalším textu se budeme některým zdánlivým detailům věnovat.

Podívejme se podrobněji na jednotlivé kroky.

Jedním z klíčových předpokladů úspěšného počítačového zpracování formulářů je již vzhled formuláře. Dnes již sice existují metody, jak rozpoznat údaje téměř z každé předlohy, pro produkční zpracování rozsáhlých souborů je však rozhodně ekonomicky výhodnější použít formulář navržený s ohledem na toto zpracování. U rozsáhlejších souborů se vhodná úprava formuláře vrátí mnohonásobně. Jak by tedy měl vypadat vhodný formulář?

Musíme rozlišovat, zda má strojové zpracování sloužit jednoznačně k vytěžení údajů, se kterými se dále bude převážně pracovat nebo zda je pro uživatele důležité uchovat v čitelném elektronickém stavu celý originál včetně např. známého a vždy se opakujícího podtisku kolonek formuláře. Pro zpracování formulářů se většinou jedná o první případ, kdy rozhodující jsou vyplněné údaje. Z hlediska dalšího zpracování je výhodné odfiltrovat předem známá data, tedy celý podtisk formuláře, který díky tomu nebude milionkrát zbytečně zpracováván, přenášen po síti a archivován. Ideálním způsobem takového odfiltrování je použití tzv. slepé barvy, známé např. ze zpracování rozličných tiketů sázkových her.

Návrh formuláře ani pak není triviální záležitostí. Mělo by být pamatováno na jednoznačné rozlišení a nezaměnitelnost jednotlivých typů formulářů při pohledu lidského oka, stejně tak by měly být formuláře snadno rozlišitelné strojově. Je třeba se zabývat vhodným rozložením tzv. čtecích zón za účelem minimalizace chyb při následném rozpoznávání. Každopádně by se návrhem nových formulářů měl zabývat společně uživatel s řešitelem úlohy.
Příprava dávek

Pod pojmem příprava dávky se rozumí veškeré činnosti předcházející vložení předloh do podavače skeneru. Je to právě skenovací pracoviště, které svými schopnostmi ovlivní pracnost přípravy dávky a tedy přímo i výši provozních nákladů v tomto kroku. Při přípravě dávky mohou, ale nemusí, přicházet v úvahu např. tyto činnosti: rozešívání spojených předloh, odstraňování plastikových obalů, odstraňování kancelářských sponek, třídění podle typu předloh, podle velikosti, řazení předloh podle orientace, zarovnávání za účelem rovného snímání, případně třídění podle kontrastu a čitelnosti v rámci stejných typů předloh apod.

Skenování
Při výběru vhodného skeneru zvažujeme tato kritéria:

. rozměr předloh, případně procentuální zastoupení různých rozměrů
. kvalitu papíru, tloušťku, ohnuté rohy, pomačkané či jinak znehodnocené předlohy
. potřebu skenování např z brožur, knih, apod.
. kontrast vyplnění, případně očekávaný rozsah kontrastu, možnost ovlivnění způsobu
. podkladovou barvu předloh, barvu vyplnění údajů, otázku filtrování podkladových barev
. převažující povahu předloh - formuláře, grafy, fotografie, text
. průměrný počet předloh ke skenování denně s přihlédnutím k případným špičkám
. povahu následného zpracování získaného obrazu, míru nasazení automatického rozpoznání písma

Uložení předloh
Po úspěšném naskenování se s předlohami - originály naloží v souladu s předpisy o archivování fyzických dokumentů. Při dobře fungujícím systému elektronického archívu nebude třeba drtivou většinu originálů znovu brát do ruky.
 

Zpracování obrazu
Moderní technologie umožňují zpracovat sejmutý obraz takovým způsobem, aby i při velmi nekvalitní a špatně čitelné předloze bylo dosaženo co nejbrilantnější elektronické interpretace. Počítačový obraz dokumentu tak může být několikanásobně lépe čitelný než předloha. Čím je to umožněno? Skener snímá obraz ve škále 256 odstínů šedé barvy, od úplně bílé až po úplně černou, tj. obraz s 256 hladinami různě syté šedé barvy. Tento „šedý” obraz existuje však pouze interně ve skeneru, do počítače se předává obraz černo-bílý. Dochází k takzvanému prahování, kdy v závislosti na nastavení parametrů skenovacího procesu je někde mezi hladinou 0 a hladinou 255 určen práh mezi černou a bílou. Všechny hladiny šedé nad tímto prahem se interpretují jako úplně černé, všechny hladiny nižší jako úplně bílé. Díky tomu může předloha s minimálním kontrastem, lidským okem sotva čitelná, vystoupit v počítačové interpretaci jako výrazný kontrastní černobílý text.

Prahování ovšem není zdaleka jediným způsobem zpracování obrazu dokumentu. Jinou typickou funkcí je „deskew”, neboli vyrovnání šikmo sejmuté předlohy do kolmice. Moderní technologie (jako např. systém VRS - VirtualReScan firmy Kofax) dokáží vyrovnat jakkoliv šikmo sejmutý dokument, tj. až do 45 stupňů nachýlení. K šikmému sejmutí dochází snadno u rozsáhlejších dávek vložených do automatického podavače skeneru. Výkonný systém „deskew” šetří náklady na přípravu dávky. A proč potřebujeme kolmé elektronické dokumenty? Takový dokument je mnohem snazším úkolem pro funkce rozpoznání formuláře, rozpoznání písma, přesněji se elektronicky razítkuje apod. Nehledě na to, že bez vyrovnání šikmo sejmuté předlohy bychom nemohli využít navazujících funkcí, jako např. odstranění vodorovných nebo svislých čar, což může být někdy výhodné např. pro eliminaci podtisku, který nebyl odfiltrován pomocí slepé barvy. Uvedená funkce ovšem může narušit a potrhat (rozpojit) písmena psaná přes eliminované čáry. Proto se většinou používá ve spojení s další funkcí, která propojuje rozpojená písmena.

Obraz je také možné čistit od tzv. smetí. Probíhá to tak, že jsou ignorovány všechny malé shluky černých bodů, až do počtu např. čtyř - znamená to, že tyto „nečistoty” jsou transformovány na body bílé. Souvisící funkcí je pak zvýraznění (obalení) zbylých černých bodů, což v praxi vypadá, jako bychom vyplněný text obtáhli fixem a tím zlepšili jeho čitelnost.

Způsobů zpracování obrazu je celá řada, zde jsme nastínili jen ty nejběžnější.

Rozpoznání formuláře
Zpracovaný obraz je v dalším kroku podroben funkci „forms processing”, která na základě vlastní inteligence a s využitím předem poskytnutých vzorů dokáže snímané formuláře rozpoznat podle jednotlivých typů. Na každý typ pak může v dalším zpracování aplikovat jiný algoritmus vyhodnocení příslušných polí. Míra spolehlivosti tohoto automatického rozpoznání má rovněž podstatný vliv na pracnost prvního kroku - přípravy dávky a tím na celkové provozní náklady.

Vyhodnocení definovaných polí
Jednotlivá pole určená k vytěžení dat jsou podrobena předem definovaným algoritmům podle typu formuláře. Rozlišujeme strojové rozpoznání písma tištěného nebo ručně psaného (tiskací písmena) a binární informaci zatrženo/nezatrženo u zatrhávacích polí. Existují různá ideální nastavení rozpoznávacích softwarů typická pro číslice, text, strojopis apod. Systém by měl umožňovat samostatnou volbu rozpoznávacího profilu pro každé zpracovávané pole.

Pro naše poměry je nutné, aby rozpoznávací software uměl pracovat s diakritikou, tedy s háčky a s čárkami. Nabídka profesionálních řešení je zde relativně omezená. U některých systémů se setkáváme s argumentací, že rozpoznávání probíhá nezávisle na několika systémech současně a následně je vybrána nejlepší volba. Tento na první pohled významný argument však pozbývá v našich podmínkách smyslu ve chvíli, kdy pro češtinu či slovenštinu je součástí takového multisystému tak jako tak pouze jeden systém znalý diakritiky. Nehledě na to, že jeden dobrý rozpoznávací systém je lepší než kombinace několika slabých.

Přesnost rozpoznání je závislá na kvalitě a výsledcích předešlých kroků, jak byly popsány výše. Je třeba si uvědomit, že proti sobě stojí přesnost a rychlost. Pilotní zpracování pomáhá obvykle najít nejvhodnější kompromis.

Rychlost rozpoznání a vyhodnocení polí je často kritickým místem z hlediska nároků na čas a obsluhu. V praxi to vypadá tak, že k jednomu skenovacímu pracovišti je přiřazeno rozpoznávací pracoviště a větší počet pracovišť indexovacích. O těch si povíme v dalším odstavci.
 

Indexace/Validace (Reskenování)
V tomto kroku přichází opět ke slovu lidský prvek. Obsluha indexovacího pracoviště zpravidla porovnává výřez sejmuté předlohy, tedy obrázek, s textovou interpretací získanou jako výsledek dosud popsaného zpracování. Obsluha má možnost do nabídnuté interpretace zasáhnout a upravit výsledek podle své vlastní vůle.

V některých případech je obsluze výsledek automatického rozpoznání utajen, obsluha vkládá z klávesnice svou vlastní interpretaci, ta je interně v počítač porovnána se strojovou interpretací a na základě shody či neshody se postupuje dále. Přesnost rozpoznání se u kritických dat, jako mohou být např. některá z daňových přiznání, zvyšuje i tím, že indexace probíhá nezávisle u dvou operátorů a pouze v případě shody je rozpoznání akceptováno jako platné. Kromě toho bývá obvyklá logická kontrola za využití databáze přípustných hodnot (např. registr PSČ, logická stavba rodného čísla a jiné).

Donedávna bylo nutně v každé lince zpracování dokumentů na tomto místě skryto jedno potenciální nebezpečí, a sice objevení nečitelné předlohy nebo její části, ať už z důvodu špatného kontrastu nebo v důsledku sejmutí dokumentu přeloženého nebo sejmutí rubové strany namísto lícové apod. Teprve indexovací pracoviště bylo totiž prvním místem, kde se objevily chyby ze skenování. To ovšem znamenalo spustit organizačně složitý proces vyhledání příslušné předlohy, přerušení práce na skenovacím pracovišti, zajištění opakovaného správného sejmutí dotyčné předlohy, její zpracování a zařazení na správné místo v dávce za současné eliminace dosud přítomné chybné varianty. Při produkčním provozu se uvedený proces reskenování mohl vyskytnout velmi často. Z lehce pochopitelných důvodů spotřebovává opakované snímání předloh největší část provozních nákladů. Uvedené zkušenosti z praxe vedly odborníky z firmy Kofax k vyvinutí již zmíněné technologie VirtualReScan, umožňující odhalit drtivou většinu nedostatků již v okamžiku skenování, tedy ve chvíli, kdy přímé i vyvolané náklady na nápravu jsou nejnižší.

Výstup do databáze
Rozpoznaná a odsouhlasená data jsou transformována do příslušného formátu, aby mohla být bezešvým způsobem akceptována zvoleným databázovým systémem.

Archivace a záloha archívu
Produkční zpracování dokumentů s sebou ze své podstaty nese neustále narůstající množství dat nezanedbatelné hodnoty. Není cílem tohoto materiálu věnovat se podrobně technologiím jejich efektivního a bezpečného uložení za současného zachování přijatelných časů pro jejich opětovné vyvolání. Uveďme pouze, že nejobvyklejší volbou v profesionálních systémech jsou magnetooptické knihovny vybavené několika čtecími mechanikami a robotikou pro rychlou výměnu médii.

Nezapomeňme také na to, že archív s tak citlivými daty, jako obvykle data z vyplněných formulářů bývají, musí být zabezpečen z hlediska přístupových práv, z hlediska výpadku elektrického proudu a v každém případě zálohován vhodným back-up systémem.

Práce s dokumenty a daty pomocí systému EDM
Popsali jsme obecná pravidla pro pořízení dokumentů a vytěžení dat z nich, věnovali jsme se vhodnému uložení takto získaných údajů. Poukázali jsme na provozní náklady, které nejsou na první pohled viditelné, které však mohou rozhodujícím způsobem ovlivnit ekonomickou náročnost celého projektu. Pominuli jsme zatím systémy distribuovaného sběru údajů s centrální administrací používajících internetových technologií, stejně jako řadu dalších postupů používaných v dynamicky se rozvíjejícím segmentu IT, v segmentu elektronického zpracování dokumentů. Přesto jsme položili určitý základ k jednání potenciálního uživatele s integrátorem příslušného systému pro správu dokumentů. Zdůrazněme závěrem, že pouze z úzké a intenzívní spolupráce zmíněných stran může vzniknout efektivní řešení s dobou návratnosti investic počítanou v měsících.

Pozn.: Autor článku je ředitelem společnosti DICOM Data Management CZ, spol. s r. o.

Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.


Inzerce

Modernizace IS je příležitost přehodnotit způsob práce

IT Systems 4/2025V aktuálním vydání IT Systems bych chtěl upozornit především na přílohu věnovanou kybernetické bezpečnosti. Jde o problematiku, které se věnujeme prakticky v každém vydání. Neustále se totiž vyvíjí a rozšiřuje. Tematická příloha Cyber Security je příležitostí podívat se podrobněji, jakým kybernetickým hrozbám dnes musíme čelit a jak se před nimi můžeme chránit. Kromě kybernetické bezpečnosti jsme se zaměřili také na digitalizaci průmyslu.