facebook LinkedIN LinkedIN - follow
IT SYSTEMS 1-2/2005

Jak začít s digitalizací dokumentů?



Většinu z nás obklopují stohy papírů, v nichž máme větší či menší pořádek. Určitě dobře znáte situaci, kdy jste zoufale hledali nějaký dokument, který se nakonec objevil úplně jinde, než jste předpokládali – a bohužel většinou pozdě. Dnešní informační technologie nám při řešení podobných problémů nabízejí pomocnou ruku v podobě systémů pro elektronickou správu dokumentů (EDM). Nedílnou součástí nelehkého úkolu zavádění pořádku do dokumentů (a především informací v nich uložených) je nejdříve převedení dokumentů do elektronické podoby (digitalizace) a následné získání potřebných informací z nich (vytěžování, indexace). Tento článek se bude věnovat právě problematice hromadné digitalizace, resp. skenování a automatického zpracování, a následného využívání.


Častým problémem v procesu digitalizace je neodborný výběr skenovacích zařízení a obslužného software. Pokud se rozhodnete pro digitalizaci dokumentů, ať už z jakéhokoliv důvodu, nechte si poradit od odborníků, kteří mají v dané oblasti přehled. Hledejte firmu, která skenery nejen prodává, ale i instaluje, popř. servisuje, a má zkušenosti z praktického provozu. Pokud budete mít pocit, že prodejce, na kterého jste se obrátili, pouze "listuje v ceníku" a o samotném zařízení a skenování nic neví, nedávejte se tou samou cestou, ale zkuste najít jiného dodavatele. Ideálním postupem je nechat si vypracovat analýzu, která by měla obsahovat nejen konkrétní návrh hardwaru a softwaru, ale i organizační a metodická doporučení. Tuto analýzu je možné zadat nezávislé firmě, častěji však samotným dodavatelům hardwaru nebo souvisejícího softwaru. U společností zabývajících se prodejem jedné značky je nutné počítat s určitou neobjektivností, ale přesto může být i taková analýza v mnohém užitečná. Jak to může dopadnout, je-li nákup vybavení prováděn bez odborné konzultace a zjištění potřebných informací, si ukážeme na dvou případech z praxe. V obou případech přišla objednávka na konkrétní typ skeneru s instalací na místě. Zákazník na svém výběru trval, protože investice byla již schválena a změny by přinesly další zdržení. V prvním případě byly instalovány čtyři dokumentové skenery formátu A3 na jednom pracovišti určeném k hromadnému skenování. Místnost, kam měly být skenery instalovány, nestačila skoro ani pro současné osazenstvo, natož pro čtyři poměrně velké skenery. Následovalo hledání nového prostoru, stěhování, nová instalace skenerů a pochopitelně nedodržení termínu zahájení provozu skenovacího pracoviště. Nárůst nákladů byl určitě několikanásobně vyšší než cena případné analýzy.




Tento případ ukazuje nejen na nezvládnutí organizační stránky věci, ale hlavně na plýtvání prostředky na hardware. Čtyři shodné skenery formátu A3 s podavačem i plochým ložem vedle sebe v jedné kanceláři pro skenování běžných dokumentů, většinou formátu A4, to je pro prodejce radost, ale jinak jde o nekoncepčnost. V tomto případě bylo vhodnější použití kombinace skenerů s a bez plochého lože a skenerů formátů A3 a A4. V druhém případě se jednalo o instalaci nového, výkonného skeneru na podatelně státní organizace. Zde byl správně zvolen skener formátu A3 bez plochého lože, protože skener A4 s ložem už měli a nyní byl určen jako záložní zařízení. Při instalaci jsme u pracovnice podatelny zjistili, že když si stěžovala, že nestíhá skenování došlých dokumentů, měla tím na mysli, aby přiřadili na podatelnu ještě jednu pracovnici. Vstup dokumentů do cílového EDM systému byl totiž realizován přes tři samostatné aplikace, které nebyly nijak provázané. Bylo potřeba udělat vždy jeden úkon, uložit, jinde otevřít atd. Navíc dokumenty musejí být skenovány po jednom, tzn. nejedná se o hromadné skenování, např. se separátory. Jak v takovém případě urychlí práci skener zvládající sto stran za minutu, ale většinou nečinný, si umíte jistě představit... Ještě větší problém v tomto případě znamená samotný proces skenování, indexování a předání k dalšímu zpracování, resp. využívání. Zde jednoznačně selhal dodavatel EDM řešení, popř. systémový integrátor, protože zmíněné překážky vložené do úzkého hrdla (tzn. podatelny jako vstupního bodu dokumentů do organizace) logicky ovlivňují efektivnost a chod celého EDM řešení. Je to důsledek toho, že procesu digitalizace není při projektech zavádění EDM řešení věnována dostatečná pozornost. Výsledkem pak bývá nakoupení nevhodného vybavení a využívání neprofesionálního softwaru neumožňujícího automatické hromadné skenování. Náklady, které tím rostou, nejsou pouze v přesčasech například pracovnice podatelny, ale i v nákladech na každý dokument, který měl být zpracován již včera.

Vysvětlení pojmů:
EDM (Electronic Document Management), DMS (Document Management System) - označení elektronických systémů určených pro podporu správy a řízení dokumentů a procesů v organizaci
OCR (Optical Character Recognition) - technologie pro rozpoznávání tištěného a strojem psaného písma a převedení na alfanumerické znaky (vytěžování)
ICR (Intelligent Character Recognition) - technologie pro rozpoznávání rukou psaného písma a převedení na alfanumerické znaky (vytěžování)
OMR (Optical Mark Reading), také Mark-Sense Recognition - technologie pro rozpoznávání zaškrtnutých, zakroužkovaných nebo zakřížkovaných značek a jejich převedení na hodnoty umožňující další zpracování (vytěžování)
BarCode Recognition - technologie pro nalezení, rozpoznání a převedení čárových kódů na alfanumerické znaky
Indexace - přiřazení údajů k naskenovanému obrazu dokumentu
Metadata - údaje získané vytěžením naskenovaných dokumentů


Dalším častým neduhem je tendence nakoupit drahé hardwarové vybavení a snaha ušetřit na obslužném a následném softwaru. Pokud chceme proces převedení dokumentů do elektronické podoby a následného vytěžení (popř. zadání metadat) zautomatizovat, zefektivnit, a tím rapidně snížit náklady, měli bychom uvažovat pouze o profesionálním softwaru určeném k těmto účelům. Obecně lze tato řešení rozdělit na hotová řešení a řešení připravená na míru zákazníkovi (obvykle se jedná o řešení založené na již připravených základních kamenech, které se upraví pro konkrétní potřebu). V obou případech je potřeba věnovat pozornost modulárnosti a otevřenosti řešení stejně jako struktuře systémů postavené na standardech (XML, vstupní/výstupní formáty souborů atd.). Cenově vychází oba typy řešení podobně a záleží na vašich požadavcích a preferencích. Výhodou řešení na míru je možnost přesněji řešit konkrétní problém a také snadnější integrace do stávajícího prostředí, je však třeba věnovat větší pozornost výběru kvalitního dodavatele. První částí těchto řešení je software pro obsluhu skeneru (skenovací aplikace), který by měl vyhovovat jak požadavkům na skenování, tak i úrovni plánované obsluhy (ne každému vyhovuje aplikace dodaná ke skeneru s drobnými ikonami a v angličtině). Dále doporučujeme věnovat pozornost aplikacím usnadňujícím skenování automatickými korekcemi skenovaných předloh, které výrazně snižují nutnost nastavování skeneru a vícenásobného skenování

Druhou částí jsou moduly pro automatické vytěžování, validaci, další zpracování a uvolnění k dalšímu využívání. K vytěžování se používají OCR/ICR/OMR technologie, které dokáží v naskenovaném dokumentu nalézt požadované informace a převést je do textových nebo hodnotových znaků pro další zpracování. Naskenovaný dokument lze zpracovávat celý, ale především se setkáme s vyhledáváním (vytěžováním) konkrétních informací. Stále častěji je dnes používáno rozpoznávání čárového kódu, ovšem množství informací je zde omezené. Čárové kódy jsou úspěšně používány jako separátor jednotlivých dokumentů při hromadném skenování a zdroj informací pro základní označení a zařazení dokumentu. Po vytěžení informací dokumentů je zapotřebí tyto hodnoty validovat, resp. ověřit správnost rozpoznání. K tomu slouží automatické kontrolní nástroje - např. databáze údajů, slovníky výrazů, propojení s IS, výpočtové a porovnávací validátory atd. Pokud nedojde ke spolehlivému rozpoznání údajů, je nutné provést ruční validaci pomocí uživatelských rozhraní řešení. Ručně lze údaje opravit, doplnit, případně je možné i znovu naskenovat konkrétní dokument. Takto zpracované dokumenty jsou uvolněny k dalšímu využívání. Je možné využívat obraz naskenovaného dokumentu včetně vytěžených údajů (metadat), např. pro EDM systémy, digitální archivy, zpřístupnění na internetu/intarnetu apod., nebo jen zpracovaná metadata, např. pro naplnění informačního systému. Správně navržený proces digitalizace a následného zpracování, založený na optimálním hardwaru a softwaru, rapidně snižuje náklady na převedení dokumentů do elektronické podoby, snižuje riziko vzniku chyb - a především zrychluje a usnadňuje práci. Pokud máte pocit, že máte problémy s hromadami papírů nebo je proces digitalizace ve vaší firmě příliš složitý, pokuste se to změnit.

Autor článku, Martin Zvoníček, působí jako manažer obchodu a marketingu ve společnosti Heitec CZ.
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.


Inzerce

Modernizace IS je příležitost přehodnotit způsob práce

IT Systems 4/2025V aktuálním vydání IT Systems bych chtěl upozornit především na přílohu věnovanou kybernetické bezpečnosti. Jde o problematiku, které se věnujeme prakticky v každém vydání. Neustále se totiž vyvíjí a rozšiřuje. Tematická příloha Cyber Security je příležitostí podívat se podrobněji, jakým kybernetickým hrozbám dnes musíme čelit a jak se před nimi můžeme chránit. Kromě kybernetické bezpečnosti jsme se zaměřili také na digitalizaci průmyslu.