Základy rozpoznávání obrázků pomocí FineReaderu. Jak používat automatické ukládání ABBYY FineReader Finereader

Ahoj. Dnes budu mluvit o tom, jak pomocí programu Abbyy FineReader rozpoznat text z obrázku, který jste mohli získat jako výsledek skenování. Váš naskenovaný text bude kompletně v dokumentu Microsoft Word a tento rozpoznaný text lze upravit! Rozpoznávání textu pomocí Abbyy Finereader může být užitečné pro ty, kteří studují, pracují s texty a překlady. Program je bohužel placený. Jednou jsem měl možnost vyzkoušet jednu z bezplatných verzí podobných programů, ale velmi dobře naskenovaný text byl rozpoznán prostě strašně... A rozpoznávání textu v Abbyy FineReader se ukazuje jako velmi kvalitní! Nyní vám ukážu, jak pomocí programu Abbyy FineReader rychle rozpoznat text od obrázku.

ABBYY FineReader má zkušební verzi na 30 dní se schopností rozpoznat až 100 stránek a uložit ne více než 3 stránky z dokumentu. Tito. Během této doby můžete vidět možnosti programu a učinit informované rozhodnutí - ať už jej potřebujete, zda stojí za nákup nebo ne.

Jak nainstalovat Abbyy FineReader!

Před použitím Abbyy Finereader jej musíte nainstalovat. Podívejme se na proces instalace tohoto programu...

Nejprve vyberte jazyk programu. Klikněte na "OK".

Přijímáme podmínky licenční smlouvy (pokud si přejete, můžete si licenční smlouvu přečíst, pokud vás zajímá, o co jde). Klikněte na „Další“.

Dále musíte vybrat režim instalace. V normálním režimu se vás program nebude ptát a nainstaluje to, co je v programu uvedeno ve výchozím nastavení, tedy všechny komponenty: samotný program pro rozpoznávání textu Abbyy Finereader, komponentu pro programy Microsoft Office a komponentu pro Windows Explorer (která umožňuje pro rychlé rozpoznání obrázků bez otevírání samostatného programu). Doporučuji vám zkontrolovat vlastní instalaci a nakonfigurovat ji tak, jak potřebujete. Navíc to nezabere ani 15 minut :) Níže je složka, kam se program nainstaluje. Je vhodné ponechat výchozí výběr, aby později při používání programu nedocházelo k problémům. Klikněte na „Další“.

Komponenty programu. Toto okno se zobrazí, pokud vyberete typ instalace „Vlastní“. Komponenty jsou něco jako pomocné aplikace pro program. První složkou je „Integrace s programy Microsoft Office a Průzkumníkem Windows“. Tato komponenta se zobrazí v nabídce Microsoft Office a pokud kliknete pravým tlačítkem myši na obrázek v počítači, bude tam položka s tímto programem. Takto bude vypadat vaše nabídka v Microsoft Office po přidání této komponenty.

Pokud na obrázek kliknete pravým tlačítkem, stane se toto:

Tito. Zobrazí se nabídka, ve které můžete provést rychlé rozpoznání textu a odeslat výsledky do Wordu, Excelu nebo PDF.

Druhá komponenta vám umožní rozpoznat text z obrazovky vašeho počítače. To znamená, že můžete pořídit snímek obrazovky a také rozpoznat text. Pokud nechcete instalovat jednu z těchto komponent nebo nechcete instalovat obě, musíte kliknout na šipku dolů a vybrat „Tato komponenta nebude dostupná“. Potom se komponenta nenainstaluje. Nechal jsem obojí.

Další 4 body. První znamená, že informace o tom, jak používáte program Abbyy Finereader, budou předány vývojáři. Doporučuji vám tuto položku nezaškrtávat, aby se program znovu nepřipojil k online odesílání informací o práci s ním. Navíc nikdy nevíte, jaké další informace budou odeslány :) 2. bod vytváří zástupce programu na ploše. 3. znamená, že se program spustí po zapnutí počítače a 4. zkontroluje aktualizace programu. Nechávám jen druhý a nechávám vedle něj klíště. Zavřeme všechny aplikace Microsoft Office, protože to instalační program vyžaduje, a klikněte na „Instalovat“.

Musíte počkat několik minut, než se program načte, a klikněte na „Další“.

To je vše, instalace je dokončena! Klikněte na „Dokončit“.

Jak mohu použít Abbyy Finereader k rozpoznání textu z naskenovaného nebo jiného obrázku?

Podívejme se, jak program používat. Například jste naskenovali text. Chcete-li nyní rozpoznat text v Abbyy FineReader, otevřete program. Klikněte na „Otevřít“.

Vyberte obrázek, který potřebujeme, a klikněte na otevřít.

Když otevřete požadovaný dokument, Abbyy Finereader začne rozpoznávat text. Čím větší dokument, tím déle bude rozpoznání trvat. Rozpoznání jedné stránky může trvat několik sekund.

Po rozpoznání textu stačí výsledek uložit do dokumentu Microsoft Word, abyste v něm pak mohli cokoliv upravovat. Chcete-li to provést, klikněte na tlačítko „Uložit“ na horním panelu nástrojů a poté vyberte, do které složky a pod jakým názvem bude dokument aplikace Word uložen.

Pokud máte k počítači připojený skener, můžete začít skenovat přímo z programu a naskenovaný dokument bude okamžitě rozpoznán. Chcete-li to provést, klikněte na tlačítko „Skenovat“ na horním panelu nástrojů. Další kroky budou záviset na programu ovladače pro vaši tiskárnu. Musíte pouze postupovat podle pokynů průvodce skenováním.

Jak vidíte, vše je velmi jednoduché a rychlé. Nyní víte, jak používat Abbyy FineReader k rozpoznání textu z obrázků! Doufám, že tato informace pomůže spoustě lidem :) Hodně štěstí!

Rozhovor bude o programu ABBYY FineReader 12, tedy o jeho nejnovější verzi. Aniž bychom se dívali příliš daleko, vybrali jsme nejznámější produkt od ABBYY, který je podle svých předností dokonale rusifikován. Fine Reader (FR) už na první pohled působí dojmem programu s dobrou ruskou podporou: v tomto ohledu je skutečně vše provedeno na velmi slušné úrovni, včetně podkladů.

První - ústup. Otázka, jak převést celý archiv nebo jeho část do digitálního formátu, je vždy aktuální (a co se vlastně rozumí pod pojmem „digitální“). Nákup skeneru pravděpodobně nevyřeší všechny problémy. Dokumentace ke skeneru je samozřejmě velmi často dodávána s diskem nebo několika s proprietárním softwarem. Již ve fázi sanitace se však ukazuje, že kvalita skenovacího programu ponechává příliš mnoho přání nebo formát, ve kterém probíhá ukládání, bohužel není vhodný pro skladování. Proč? Většina grafických formátů neodděluje text od netextového prostoru dokumentu, a proto není možné z takového souboru kopírovat žádnou pasáž.

Právě v takových případech přicházejí na pomoc funkční programy pro rozpoznávání textu, mezi jejichž schopnosti patří zejména extrahování textu z obrázku.

Seznámení s aplikací ABBYY FineReader

Igelitová taška ABBYY Finereader 12- Systém optického rozpoznávání znaků (OCR). Navrženo jak pro automatické vkládání tištěných dokumentů do počítače, tak pro převod PDF dokumentů a fotografií do editovatelných formátů (z manuálu k programu)

Zkratka "OCR" je použitelná pro všechny aplikace pro rozpoznávání dat (nejen text). Zdrojem pro extrakci dat může být tištěný nebo elektronický dokument. Kdysi, není to tak dávno, málokdo věděl o OCR, v té či oné podobě, a proces převodu textu do elektronické podoby se proměnil v pouhou rutinu, až po ruční přetištění původního textu. Dnes mít plochý skener (manuální skener doma používá jen málokdo) a jemný čtenář 12- Ujišťujeme vás, že při skenování a rozpoznávání nebudou žádné potíže.

Počínaje šestou verzí podporuje FineReader import a export do formátu PDF, patentovaného společností Adobe. Mnoho čtenářů se pravděpodobně setkalo s potížemi při překladu z tohoto formátu do jakéhokoli jiného (doc atd.), protože v této oblasti není tolik skutečně užitečných programů (jediný, který stojí za pozornost, je dceřiný produkt společnosti ABBYY, PDF Transformer). Faktem je, že takové programy provádějí rozpoznávání textu pouze jednou, v důsledku čehož „identita“ výsledku není vůbec významná (v závislosti na složitosti dokumentu) a formátování dokumentu je do značné míry ztraceno.

V případě FineReaderu je vše jinak. Devátá verze programu zavádí technologii nazvanou Document OCR. Je založen na principu integrálního rozpoznávání dokumentů: je analyzován a rozpoznáván jako jeden celek, nikoli stránka po stránce. Zároveň zůstávají všechny druhy sloupců, záhlaví, fontů, stylů, poznámek pod čarou a obrázků nedotčeny nebo jsou nahrazeny těmi, které se blíží originálu.

Instalace balíčku

Demoverze Finereader 12 je ke stažení na webu Abbyy.ru, v sekci Download je plná licencovaná verze distribuována na CD. O způsobech nákupu se můžete dozvědět na stejném webu v sekci „Koupit“.

Na webu ABBYY developers si můžete stáhnout demo verzi balíčku ABBYY FineReader verze 12 (nebo jinou, která je dnes aktuální)

ABBYY FineReader je distribuován v několika verzích: Professional Edition, Corporate Edition, Site License Edition atd. Rozdíl mezi verzí Professional a ostatními je v tom, že je navržena pro práci v podnikové síti se schopností spolupracovat na rozpoznávání dokumentů. Jinak je rozdíl nepatrný a závisí na volbě podmínek licenční smlouvy.

Těžko si představit, že před 12 lety existoval FineReader 2.0, který zabíral asi 10 MB místa na disku. Časem se balíček zdesetinásobil a nyní po instalaci zabírá až 300 MB. Je to hodně nebo málo - posuďte sami. Nový FR podporuje 179 rozpoznávacích jazyků, včetně málo známých umělých jazyků (Ido, Interlingua, Occidental a Esperanto), programovacích jazyků, vzorců atd. Nezapomínejme ani na podporu různých formátů a skriptů. Pokud tedy z nějakého důvodu chcete omezit prostor, který balíček zabírá, vyberte při instalaci pouze ty komponenty, které budou během provozu potřeba.

Výběr komponentů ovlivňuje dobu instalace, která by však neměla zabrat mnoho času. Během procesu instalace budete seznámeni s hlavními funkcemi FR. Po aktivaci (přes internet, přes E-mail, pomocí přijatého kódu atd.) je program připraven k plné funkčnosti. V demo režimu se jistě setkáte s různými omezeními, která vám bohužel neumožňují balíček plně využít.

Rozhraní FineReader. Funkčnost

Přístup ke schopnostem programu je dostupný jak prostřednictvím skriptů, které se objeví v hlavní nabídce ihned po procesu instalace, tak i přes hlavní rozhraní.

Spořič obrazovky při spuštění FineReaderu

Vzhled programu neprochází od verze k verzi žádnými výraznými změnami: vývojáři nevidí smysl v jeho radikální změně. Značná pozornost je věnována ergonomii, která je patrná u všech produktů ABBYY (Lingvo, PDF Transformer, FlexiCapture...). Jinými slovy, rozhraní Fine Reader 12 je dobře promyšlené a vhodné pro všechny uživatele, včetně začátečníků. Princip „Získejte výsledky jedním kliknutím“ osloví ty, kteří nejsou zvyklí něco nastavovat a měnit. Na druhou stranu, zkušenější uživatelé mohou FineReader pečlivě nakonfigurovat prostřednictvím dialogu nastavení (Nástroje -> Možnosti…). Jediné upozornění: pro pohodlnou práci v aplikaci je vhodné nastavit rozlišení obrazovky na 1280×800, aby byly všechny nástroje vždy, jak se říká, po ruce.

Po spuštění programu Fine Reader se zobrazí okno s tlačítky pro rychlý přístup k funkcím programu. Tato nabídka je také dostupná prostřednictvím nabídky Nástroje -> ABBYY FineReader, tlačítka „Hlavní skripty“ v pravém rohu programu nebo pomocí kombinace kláves Ctrl+N (podobně jako ve Wordu, kde tato kombinace otevře nový dokument) .

Skenování do aplikace Microsoft Word: v deváté verzi FineReaderu se objevila podpora pro dosud nepopulární Microsoft Word 2007. Na panelu nástrojů v aplikacích Microsoft Office se zase po instalaci FR objeví „značková“ červená ikona v sekci doplňků.

Nabídka pro export rozpoznaného dokumentu FineReader

Výběr jazyků pro skenování a rozpoznávání dokumentů

Kromě Microsoft Office podporuje FR integraci s Microsoft Outlook a exportuje výsledky rozpoznávání do aplikací Microsoft Word, Excel, Lotus Word Pro, Corel WordPerect a Adobe Acrobat. Tyto funkce poněkud usnadňují a urychlují práci s programem, zvláště pokud s ním musíte pracovat pravidelně.

PDF nebo obrázky v aplikaci Microsoft Word: rozpoznat data z PDF nebo jiného typu grafického souboru podporovaného Finereaderem verze 12. Je třeba poznamenat, že technologie pro extrakci textu z PDF souboru ve FR není jen „odloupnutím“ textového obsahu (textová vrstva v PDF může chybět) z grafického. Technologie rozpoznávání je ve skutečnosti poměrně komplikovaná: po analýze obsahu dokumentu se program rozhodne, co a jak s textem udělá: jednoduše extrahovat nebo rozpoznat a tak dále pro každý textový fragment.

Skenování do aplikace Microsoft Excel: Skenování do XLS (formát Microsoft Excel) může být oprávněné, pokud naskenovaný obrázek obsahuje tabulky.

Skenování do PDF: Existuje mnoho důvodů, proč skenovat do PDF. Jedním z nich je zabezpečení: toto je jediný formát, který FR zná, v jehož nastavení lze nastavit zámek heslem. Heslo se nastavuje nejen pro otevření dokumentu, ale i pro jeho tisk a další operace. Je možné zvolit jednu ze tří úrovní šifrování: 40bitové, 128bitové na základě standardu RC4, 128bitové úrovně podle standardu AES (Advanced Encryption Standard).

Převést fotografii do aplikace Microsoft Word: převod souboru z grafického formátu (a může to být PDF nebo vícestránkový obrázek) do DOC / DOCX.

Otevřít v aplikaci Fine Reader: otevřete grafický soubor (PDF, BMP, PCX, DCX, JPEG, JPEG 2000, TIFF, PNG) pro rozpoznání FineReaderem.

Práce ve FineReaderu

Nyní - stručně o funkcích programu. Celý proces je rozdělen na skenování, rozpoznávání a ukládání výsledků. Poté, co jste zvolili typ akce programu, specifikovali soubor nebo zařízení ke kontrole, FineReader provede svůj úkol krok za krokem, což je mimochodem pro centrální procesor poměrně náročné na zdroje.

Pokud jste šťastným majitelem dvoujádrového procesoru, pak prací v balíčku Fine Reader 12 můžete ocenit sílu výkonu vašeho počítače. Faktem je, že FR, když detekuje dvoujádrový procesor, rozpozná paralelně ne jednu, ale dvě stránky dokumentu. Je to maličkost, ale je to milé.

Nejprve přichází na řadu skenování, poté rozpoznání a export dočasného dokumentu do zvoleného formátu.

Proces rozpoznávání PDF dokumentů

Snímání. Před skenováním není třeba provádět žádná předběžná nastavení v aplikaci FineReader (kromě výběru čtecího zařízení). Proto byly vynalezeny skripty: jsou navrženy tak, aby zjednodušily provádění podobných akcí.

Uznání. Zjednodušení se dotklo i dalších maličkostí. Pokud si tedy vzpomeneme na předchozí verze programu, museli jsme předtím ručně změnit jazyk (jazyky, pokud jich bylo několik) dokumentu. Nyní se to děje automaticky, i když ne vždy. V druhém případě FR nenápadně navrhuje zkontrolovat jazyk dokumentu.

Vraťme se k technologii rozpoznávání FR: proč program nejprve naskenuje celý dokument jako celek a ne stránku po stránce? Jak již bylo zmíněno, text je rozpoznán na základě celého obsahu: jsou vybrána písma podobné velikosti/druhu písma, tabulky a ohraničení, odsazení atd.

Nebuďte překvapeni, když FineReader 12 zobrazí zprávu, že stránku nelze rozpoznat, protože nebyly nalezeny žádné oblasti textu. Pro experiment jsme vyfotografovali oblast textového dokumentu mobilním telefonem z LCD displeje (výsledek jsme však znali již předem). Fine Reader 12 nerozpoznal text obrázku, protože měl zjevně kvalitu, která k tomu zjevně nestačila. Při druhé návštěvě jsme stránku s textem vyfotili při běžném osvětlení digitálním fotoaparátem.

FineReader pasáž bez problémů rozpoznal, zachoval formátování a pomocí značek zvýraznil některé pochybné momenty nebo znaky, které mohou mít proměnlivý pravopis.

Jak vidíte na obrázku, jedná se především o tečky, pomlčky, čárky – obecně malé znaky. Navíc je dobře vidět, že program počítal s nerovnostmi a zakřivením fotografované stránky a řádky textu zarovnal. Závěr - FR se se svým, i když nepříliš obtížným úkolem, odvedla na výbornou.

Občas si některé drobné problémy program Fine Reader nevšimne, ale lze je snadno opravit ručně. Naštěstí má balíček vlastní WYSIWYG editor, jehož možnosti jsou zcela dostačující pro provedení finální úpravy dokumentu. K dispozici je také kontrola pravopisu.

Jak můžeme zlepšit přesnost rozpoznávání, abychom mohli trávit méně času úpravou textu? Nejprve můžete připojit vlastní slovník Microsoft Word. Pravda, nárůst přesnosti je těžké posoudit, snad kromě nárůstu slovní zásoby kontroly pravopisu (modul, který kontroluje pravopis a gramatiku). Pro zlepšení rozpoznávání má mimo jiné smysl seznámit se s nastavením programu (Nástroje -> Možnosti) a vybrat si jeden ze dvou režimů:

pečlivé rozpoznání- lze jej vybrat při rozpoznávání dokumentů jakékoli „složitosti“: s tabulkami bez mřížky, textem, grafy, tabulkami na barevném pozadí atd. Může pomoci i s nekvalitním zdrojem rozpoznávání

rychlé rozpoznání- tento režim se doporučuje pro zpracování velkých objemů dokumentů s jednoduchým designem nebo v případech, kdy čas neumožňuje důkladné rozpoznání. Ve většině případů, když máte černě vytištěný text na bílém pozadí, můžete se spokojit s rychlým rozpoznáním.

Obecně platí, že zlepšení kvality práce FineReaderu je samostatným tématem konverzace, podrobnosti se můžete dozvědět z oficiální nápovědy, konkrétně v části „Jak zlepšit získané výsledky“.

Ukládání dokumentu. Poslední fází práce v programu Fine Reader 12 je uložení konečného výsledku do konkrétního grafického/textového formátu. Nastavení před uložením lze zadat v možnostech FR: Nástroje -> Možnosti, záložka „Uložit“. Každý formát má svá vlastní nastavení. Při ukládání ve formátu DOCX byste měli dávat pozor na kompatibilitu formátů (soubory DOCX nejsou ve Wordu 2003 rozpoznány<). В txt-файлах не забудьте проверить правильность кодировки (особенно в случае с текстом в кириллице).

ABBYY Screenshot Reader

V mnoha velkých balíčcích vývojáři často rádi přidávají malé obslužné programy. Řekněme, že známá aplikace pro vypalování disků Nero obsahuje sadu 3 - 5 utilit, které umožňují něco, co ani samotné Nero neumí. Recenze (můžete si ji také stáhnout zde jako součást Fine Reader 12).

Pokud jde o FineReader, obsahuje jednu malou aplikaci Screenshot Reader. S ním můžete pořídit snímek obrazovky a rychle jej převést do požadovaného formátu pomocí FR. Program je dostupný prostřednictvím nabídky Start (Start -> Všechny programy -> ABBYY FineReader 12.0 -> ABBYY Screenshot Reader.).

Možnosti Screenshot Reader jsou poněkud širší, než by se na první pohled mohlo zdát. (jinak byste to mohli udělat jednoduše stisknutím klávesy „PrintScreen“ na klávesnici). Kromě pořízení snímku obrazovky (nebo přesněji vybrané oblasti obrazovky) je Screenshot Reader úzce integrován s FR.

Když kliknete na tlačítko „Snímek“ na panelu čtečky snímků, kurzor změní tvar a aktivuje se nástroj pro výběr oblasti obrazovky. Vybraná oblast obrázku je orámována pro další rozpoznání textu (běží automaticky).

V rozevíracím seznamu můžete vybrat požadovanou akci: ve skutečnosti Screenshot Reader duplikuje rychlé skripty FR s tím rozdílem, že místo snímku obrazovky ze skeneru je jako vstup přijat snímek obrazovky.

Nutno podotknout, že program spolu s celým balíčkem vyžaduje aktivaci. Při registraci produktu je ABBYY FineReader 12 Professional Edition Screenshot Reader poskytován zdarma jako „bonus“.

Závěr

FineReader je nepostradatelný program pro skenování a rozpoznávání grafických dat. Rozhraní v ruském jazyce a dostupnost nastavení nezkušeného uživatele nevyděsí. Podpora nejnovějších formátů, inovativní technologie a v důsledku toho vysoce kvalitní rozpoznávání činí z programu optimální volbu, zejména proto, že ABBYY FineReader v této oblasti stále nemá konkurenci.

Klávesové zkratky FineReader 12

Vytvořte nový dokument ABBYY FineReader- CTRL + N
Otevřete dokument ABBYY FineReader 12 - CTRL + SHIFT + N
Uložit stránky- CTRL + S
Uložit obrázek do souboru- CTRL + ALT + S
Rozpoznejte všechny stránky dokumentu- CTRL + SHIFT + R
Zavřít aktuální stránku- CTRL + F4
Rozpoznejte vybrané stránky dokumentu ABBYY FineReader- CTRL + R
Otevřete Správce scénářů- CTRL + T
Otevřete dialogové okno Fine Reader Options- CTRL + SHIFT + O
Otevřete nápovědu- F1
Přejděte do okna Dokument-ALT +1
Přejděte do okna Obrázek- ALT +2
Přejděte do okna Text- ALT +3
Přejděte do okna Close-up- ALT +4

Takže máme na počítači nainstalovaný FineReader. Zapneme skener a zdigitalizujeme nějaký vícestránkový dokument. Říkejme tomu podmíněně „Dohoda“.

Položte první stránku dokumentu na sklo skeneru a zavřete víko. Spusťte program FineReader. Klikněte na tlačítko „Skenovat“ nebo stiskněte kombinaci „Ctrl+K“. Otevře se okno "ABBYY FineReader Scanning". Při digitalizaci běžné textové stránky napsané 11-12bodovým písmem ponechte v okně výchozí nastavení a klikněte na tlačítko „Zobrazit“.

Skener funguje a po pár sekundách vidíme naši stránku v prohlížecím okně. Zde můžeme v případě potřeby změnit velikost skenování. A poté klikněte na tlačítko "Skenovat".

FineReader zahájí proces rozpoznávání textu a během minuty se v okně programu otevře obrázek stránky. Pravá strana okna je nyní rozdělena na tři části. V levé části "Obrázek" můžeme obrázek upravit. Více o úpravách obrázků si můžete přečíst v lekci: Skenování knihy. V pravé sekci "Text" můžete okamžitě provádět změny v textu - upravovat obsah stránky ještě před jejím uložením. To je velmi výhodné, když potřebujete například rychle změnit data, podrobnosti a příjmení v dokumentu.

V levé části okna „Stránky“ se zobrazí ikona rozpoznané stránky:

Pokud nepotřebujete nic upravovat, vyměňte první stránku na skle skeneru za druhou a zopakujte technologii. Poté, co jste jednou upravili velikosti skenování v okně "ABBYY FineReader Scanning" v režimu "Náhled" pro první stránku, nyní ihned klikněte na tlačítko "Skenovat". Nastavení pro první stránku se uloží a další stránky se naskenují bez náhledu. Naskenujeme tedy všechny stránky našeho dokumentu.

Dokončili jsme a nyní kliknutím na ikony jednu po druhé otevíráme stránky a kontrolujeme jejich správné pořadí.

Poté v levé části okna „Stránky“ vyberte všechny ikony tlačítkem: „Upravit – Vybrat vše“ nebo klávesovou zkratkou: „Ctrl + A“. Poté v rozevíracím seznamu vedle tlačítka „Uložit“ vyberte příkaz: „Uložit jako dokument PDF“:

Nyní klikněte na samotné tlačítko a uložte dokument s názvem „Agreement.pdf“ do složky „Agreement“:

Výsledkem je vícestránkový textový dokument ve formátu pdf - elektronická verze našeho dokumentu s kódovým názvem „Smlouva“.

Takže digitalizujeme textové dokumenty pomocí FineReaderu.

Změnou režimu skenování na „color“ v okně „ABBYY FineReader Scanning“ můžeme také snadno digitalizovat barevné obrázky a fotografie.

A nastavením v kontextové nabídce například příkazu: „Uložit jako dokument Microsoft Word 2007“ přeměníme náš projekt na jeden vícestránkový upravitelný dokument Word.

Obecně je program snadno srozumitelný, intuitivní a má všude vyskakovací tipy.

Tentokrát vám řeknu, jak převést papírové dokumenty do elektronického formátu PDF, a také jak přenést papírový dokument do počítače za účelem změny textu. Takže, začněme.
V rukou mám papírový dokument.

SKENOVÁNÍ do PDF

Úkol: přeneste tento dokument do počítače (přeložte do elektronické podoby). Navíc je potřeba to udělat přesně v této podobě, aby to nemohlo být v budoucnu změněno (zhruba řečeno, musíte dokument vyfotit). Poté musí být tento elektronický dokument zaslán poštou na e-mailovou adresu. Navíc jej klient požaduje ve formátu pdf.

Podle fází:
1) Protáhnu dokument skenerem
2) Výsledný tisk uložím ve formátu pdf do počítače
3) Přijatý soubor posílám poštou
Ve své práci používám k řešení tohoto problému 2 programy:
Foxit Phantom nebo ABBYY FineReader. Pro přehlednost přikládám screenshoty:
Ve Foxit Phantom, když je skener zapnutý, musíte v hlavní nabídce vybrat FILE-CREATE PDF ZE SKENERU...
Proběhne kontrola a budete vyzváni k uložení souboru. Vyberte umístění, napište název souboru a uložte.

ABBYY FineReader má na panelu nástrojů obrovská tlačítka. Jeden z nich se nazývá SCAN to PDF. Používáme to.

Pokud potřebujete naskenovat vícestránkový dokument, postupujte postupně:
1) Stiskněte tlačítko číslo 1 SCAN

Obdržíme naskenovaný dokument

Naskenujeme také další stránku (znovu stiskneme tlačítko číslo 1 SKENOVAT).
2) Uložit jako PDF

V důsledku toho získáme hotový vícestránkový dokument ve formě souboru PDF.

Nyní lze tento soubor odeslat e-mailem.

ROZPOZNÁVÁNÍ TEXTU

Úkol: převést papírový dokument do elektronické podoby (do počítače)

Podle fází:
1) Skenovat (tlačítko 1 SKENOVAT)

2) Rozpoznání (tlačítko 2 ROZPOZNAT VŠE)

Rozpoznávání je třeba chápat jako proces převodu fotografie (obrázku) do textu (písmena, číslice, znaky). Pokud jste vyfotografovali textovou stránku, tak se po rozpoznání 99 % textu z papíru změní na elektronický text. Elektronický text lze již v počítači měnit (editovat) tak, jak chcete.

3) Uložení do textového editoru (tlačítko 4 Uložit)
Doporučuji vám zvolit PŘENOS VŠECH STRÁNEK DO MICROSOFT WORD

Dostaneme

Během procesu UZNÁVÁNÍ bych rád upozornil na důležité body. Při práci existují nuance.
Ihned po uznání vám doporučuji podívat se na výsledek. Zejména na blocích, které program FineReader vytváří.

Jedná se o oblasti zvýrazněné v obdélníkových rámečcích. Tyto rámy jsou různých barev. Pokud je červený, je tento blok rozpoznán jako OBRÁZEK. Pokud je černá, pak TEXT. Bloky přicházejí v různých typech. Typ bloku lze zjistit kliknutím na blok PRAVÝM tlačítkem myši a výběrem ZMĚNIT TYP BLOKU.

Malý trik: můžete vybrat libovolnou oblast a označit ji libovolným typem bloku. Vyberme například tu část textu, která se špatně rozpoznává levým tlačítkem myši (kliknutím, podržením a přetažením rámeček změní velikost).

V důsledku toho bude mít dokument ve Wordu blok textu a blok obrázků. Obraz bloku bude mít absolutně nezměněný vzhled. Tuto metodu používám při ukládání známek, nestandardních písem, obrázků a fotografií.

PS: Znalost a schopnost pracovat s PDF, skenovat a rozpoznávat dokumenty velmi často pomáhá při kancelářské práci. Znalosti šetří váš čas!

Přestože pokroky v oblasti umělé inteligence (AI) za posledních 50 let nepřiblížily chytré stroje ani o kousek blíže lidským kognitivním schopnostem, bylo by nespravedlivé pokroky v tomto směru zcela popírat. Nejviditelnějším a nejmarkantnějším příkladem jsou šachy (nemluvě o jednodušších hrách). Počítač zatím nedokáže napodobit naše myšlení, ale je docela schopný kompenzovat tuto mezeru velkým množstvím specializované paměti a rychlostí vyhledávání. Vladimír Kramnik označil hru programu Deep Fritz, která ho porazila v roce 2006, za „nelidskou“ v tom smyslu, že často odporovala zavedeným (lidským) pravidlům strategie a taktiky.

A před více než rokem udělal další průlom další nápad IBM, který svého času položil základy triumfálních šachových vítězství počítačů (slavná Deep Blue), jménem Watson, když porazil dva šampiony populárního amerického kvízu Jeopardy s velkým náskokem. Je však důležité, že ačkoli Watson nezávisle vyslovil odpovědi, otázky mu byly stále předávány v textové podobě. To naznačuje, že úspěchy v mnoha oblastech aplikace AI – rozpoznávání řeči a obrazu, strojový překlad – jsou poměrně skromné, i když nám to nebrání je dnes využívat v praxi. Asi největší úspěchy vykazují systémy optického rozpoznávání znaků (OCR, Optical Character Recognition), které asi tak či onak znají téměř všichni uživatelé PC. Navíc ruský vývoj v této oblasti zaujímá ve světě důstojné místo – mám na mysli ABBYY FineReader.

Trocha historie

Aktuální verze ABBYY FineReader je číslo 11, tedy aplikace prošla poměrně dlouhou vývojovou cestou a i historie tohoto procesu je do jisté míry zajímavá. Aniž bych předstíral vyčerpávající kroniku, uvedu pouze hlavní milníky za poslední desetiletí, během kterého jsem FineReader víceméně sledoval:

Rok	Verze	Hlavní rysy
2003	7.0	Zvýšení přesnosti rozpoznávání až o 25 %. Nejvíce se to projevilo u tabulek, zejména složitých, s barevnými buňkami, skrytými oddělovači atp.
2005	8.0	Další optimalizace rozpoznávacích algoritmů primárně zaměřená na práci nikoli s naskenovanými dokumenty, ale s digitálními fotografiemi. Pro tento účel se objevily další funkce pro přípravu předloh (eliminace zkreslení, zarovnání čar atd.).
2007	9.0	Vznik technologie ADRT, která zohledňuje logickou strukturu celého zpracovávaného (vícestránkového) dokumentu a dokáže zvýrazňovat opakující se prvky (záhlaví a zápatí), propojovat „tekoucí“ objekty (tabulky) atd.
2009	10.0	Další vylepšení ADRT a rozpoznávacích algoritmů, zvýšení přesnosti zpracování originálů s nízkým rozlišením až o 30 %.
2011	11.0	Hlavní pozornost je věnována rychlosti programu. „Second Coming“ černobílého režimu, který u kvalitních originálů poskytuje dodatečné zrychlení až o 30 %.

FineReader samozřejmě ve stejné době rozšířil podporu formátů dokumentů, zlepšil vestavěné nástroje a rozhraní, zlepšil rekonstrukci struktury originálů atd. Zvýrazněné body však přímo souvisí s technologiemi OCR a dobře demonstrují křečovitý vývojový proces charakteristické pro komplexní znalostně náročné systémy, kdy po dalším „průlomu“ následuje určitá doba „klidu“, nezbytná pro zdokonalení nových algoritmů. Představují hlavní hodnotu jakéhokoli OCR programu, a proto se o nich nějaké podrobné informace dostanou k uživatelům jen zřídka. Společnost ABBYY však laskavě souhlasila s odstraněním závoje tajemství a dnes máme příležitost nahlédnout do svatyně FineReaderu.

Základní principy

Jelikož tedy OCR patří do oblasti AI, je logické, že se vývojáři snaží alespoň do jisté míry napodobit činnost našeho mozku. Struktura našeho zrakového systému je samozřejmě neuvěřitelně složitá, ale základní „velkoblokové“ principy jeho fungování jsou dostatečně prozkoumány, obvykle jsou tři:

Integrita- objekt je považován za soubor jeho částí a (pro vizuální obrazy) prostorových vztahů mezi nimi. Části se pak interpretují pouze jako součást celého objektu. Tento princip pomáhá vytvářet a objasňovat hypotézy a rychle eliminovat ty nepravděpodobné.
Účelnost- protože každá interpretace dat sleduje konkrétní cíl, rozpoznávání je proces předkládání hypotéz o objektu a jejich účelové testování. Systém fungující v souladu s tímto principem bude nejen hospodárněji využívat výpočetní výkon, ale také bude méně chybovat.
Přizpůsobivost- systém ukládá informace nashromážděné během provozu a znovu je používá, tj. sám se učí. Tento princip umožňuje vytvářet a shromažďovat nové znalosti a vyhnout se opakovanému řešení stejných problémů.

FineReader je jediný OCR systém na světě, který funguje v souladu s výše popsanými principy ve všech fázích zpracování dokumentů. Odpovídající technologie se nazývá IPA- podle prvních písmen anglických termínů. Například podle principu integrity bude fragment obrazu interpretován jako symbol pouze tehdy, pokud obsahuje všechny strukturální části podobných objektů a těch, které jsou v určitých vztazích. To pomáhá nahradit hledání velkého množství norem (při hledání více či méně vhodného) cíleným testem přiměřeného počtu hypotéz, opírajícím se o dříve nashromážděné informace o možných obrysech postavy v uznávaném dokumentu. .

Principy IPA však platí při analýze nejen fragmentů odpovídajících (pravděpodobně) jednotlivým znakům, ale i celého zdrojového obrázku stránky. Většina systémů OCR je založena na rozpoznání hierarchické struktury dokumentu, tj. stránka je rozdělena na základní strukturní prvky, jako jsou tabulky, obrázky, bloky textu, které jsou zase rozděleny na další charakteristické objekty - buňky, odstavce - a tak dále, až po jednotlivé postavy.

Takovou analýzu lze provést dvěma hlavními způsoby: shora dolů, tj. od základních prvků k jednotlivým postavám, nebo naopak zdola nahoru. Jeden z nich se používá nejčastěji, ale společnost ABBYY vyvinula speciální algoritmus MDA(víceúrovňová analýza dokumentů), která kombinuje obojí. Stručně to vypadá takto: struktura stránky je analyzována metodou shora dolů a rekonstrukce elektronického dokumentu po dokončení rozpoznání probíhá zdola nahoru, ale na všech úrovních existuje další mechanismus zpětné vazby. V důsledku toho se výrazně snižuje pravděpodobnost hrubých chyb spojených s nesprávným rozpoznáním objektů na vysoké úrovni.

ADRT

Historicky se systémy OCR vyvíjely z rozpoznávání jednotlivých znaků. Tento úkol je stále nejdůležitější a nejobtížnější, jsou s ním spojeny nejsložitější algoritmy. Brzy se však ukázalo, že informace vyšší úrovně (například o jazyce dokumentu a správném pravopisu rozpoznaných slov) mohou pomoci při řešení tohoto problému - tak se objevily kontextové a slovníkové kontroly. Pak touha zachovat formátování a znovu vytvořit fyzickou strukturu (tj. relativní polohy různých objektů) dokumentu vedla k potřebě podrobné analýzy celé stránky. Je zřejmé, že to také výrazně ovlivňuje celkovou kvalitu rozpoznávání, protože pomáhá správně zpracovat vícesloupcový layout, tabulky a další způsoby „nelineárního“ uspořádání textu.

Většina moderních OCR funguje právě na těchto třech úrovních – znaky, slova, stránky – a procvičuje, jak již bylo zmíněno, přístupy shora dolů nebo zdola nahoru. Společnost ABBYY však v souladu s principy IPA zavedla do FineReaderu další úroveň – celý vícestránkový dokument. Především to bylo potřeba ke správné reprodukci logické struktury, která se v moderních dokumentech stává stále složitější. Existují však další bonusy: zvýšená přesnost a rychlejší zpracování opakujících se objektů, správnější identifikace (a tedy rozpoznání) objektů „proudících“ ze stránky na stránku.

To je přesně důvod, proč byl vyvinut ADRT(Adaptive Document Recognition Technology) - technologie pro analýzu a syntézu dokumentů na logické úrovni. Nakonec to pomáhá, aby výsledek FineReaderu fungoval co nejpodobněji originálu. Za tímto účelem se analyzuje obraz celého dokumentu a rozpoznaná slova se spojí do skupin (shluků) v závislosti na stylu, prostředí a umístění na stránce. Tímto způsobem program jakoby vidí „logiku“ označení dokumentu a může následně sjednotit návrh výsledku.

Díky ADRT se FineReader od verze 9.0 naučil detekovat, rozpoznávat a reprodukovat následující konstrukční části a prvky formátování dokumentu:

hlavní text;
záhlaví a zápatí;
čísla stránek;
záhlaví stejné úrovně;
obsah;
textové vložky;
popisky pro kresby;
stoly;
poznámky pod čarou;
zóny pro podpis/pečeť;
písma a styly.

Proces rozpoznávání

V souladu s algoritmem MDA začíná skutečné rozpoznávání shora dolů, od úrovně stránky. Je jasné, že čím více chybných rozhodnutí je učiněno v raných fázích tohoto procesu, tím více jich bude v následujících. To je důvod, proč přesnost rozpoznávání tolik závisí na kvalitě originálů, ale významný dopad mohou mít také jejich algoritmy předběžného zpracování. Jak tedy ve FineReaderu rostla obliba barevných dokumentů, objevil se postup adaptivní binarizace. AB). Pokud okamžitě naskenujete dokument v černobílém režimu, kde jsou vodoznaky nebo je text umístěn na texturovaném nebo barevném podkladu, pak se na obrázku vždy objeví „odpad“, který pak bude poměrně obtížné oddělit od „ užitečný“ obrázek (protože původní informace o něm jsou již ztraceny). To je důvod, proč FineReader preferuje práci s barevnými obrázky nebo obrázky ve stupních šedi a nezávisle je převádí na černobílé (tento proces se nazývá binarizace). Ale to není všechno. Vzhledem k tomu, že barvy textu a pozadí se mohou v rámci stránky a dokonce i v rámci jednotlivých řádků lišit, AB identifikuje slova s víceméně stejnými vlastnostmi a pro každé vybere optimální parametry binarizace z hlediska kvality rozpoznávání. To je právě adaptivita algoritmu, který je tedy příkladem využití zpětné vazby v MDA. Je zřejmé, že účinnost AB silně závisí na designu zdrojových dokumentů – na testovací bázi ABBYY tento algoritmus zajistil zvýšení přesnosti rozpoznávání o 14,5 %.

Ale to nejzajímavější samozřejmě začíná, když proces rozpoznávání klesá na nejnižší úrovně. Postup tzv. lineárního dělení rozděluje řádky na slova a slova na jednotlivá písmena; poté v souladu s principem IPA vygeneruje sadu hypotéz (tj. možné varianty, o jaký druh symbolu se jedná, na jaké symboly se slovo dělí atd.) a u každé z nich poskytne odhad pravděpodobnosti a předá ji na vstup mechanismu rozpoznávání znaků. Ten se skládá z řady tzv klasifikátory, z nichž každá také generuje řadu hypotéz seřazených podle jejich očekávané míry pravděpodobnosti. Nejdůležitější charakteristikou každého klasifikátoru je průměrná pozice správné hypotézy. Je jasné, že čím vyšší, tím méně práce pro následné algoritmy - například kontrolu slovníku. Ale u dostatečně zavedených klasifikátorů se nejčastěji posuzují vlastnosti, jako je přesnost rozpoznávání na základě prvních tří hypotéz nebo pouze na základě první - tedy zhruba schopnost uhodnout správnou odpověď na tři nebo jeden pokus. Společnost ABBYY používá ve svých systémech následující typy klasifikátorů: rastr, prvek, diferenciál prvků, obrys, strukturální a strukturální diferenciál – které jsou seskupeny na dvou logických úrovních.

Princip fungování RK, neboli rastrový klasifikátor, je založen na porovnání pixelu po pixelu obrázku znaku se standardy. Ty jsou vytvořeny jako výsledek průměrování obrázků z tréninkové sady a redukovány do určité standardní formy; V souladu s tím jsou velikost, tloušťka prvků a sklon také přednormalizovány pro rozpoznaný obraz. Tento klasifikátor se vyznačuje snadnou implementací, rychlostí provozu a odolností vůči vadám obrazu, ale poskytuje relativně nízkou přesnost, a proto se používá v první fázi - pro rychlé generování seznamu hypotéz.

Klasifikátor funkcí ( PC), jak jeho název napovídá, je založen na přítomnosti znaků určitého symbolu na obrázku. Pokud existuje N takových znaků celkem, pak každá hypotéza může být reprezentována bodem v N-rozměrném prostoru; podle toho bude přesnost hypotézy posouzena vzdáleností od ní k bodu odpovídajícímu standardu (který je také vypracován na cvičné množině). Je jasné, že o kvalitě rozpoznávání do značné míry rozhodují typy a množství funkcí, takže jich bývá poměrně hodně. Tento klasifikátor je také relativně rychlý a jednoduchý, ale není příliš odolný vůči různým vadám obrazu. Navíc PC nepracuje s původním obrázkem, ale s určitým modelem, abstrakcí, tedy nezohledňuje některé informace: řekněme samotný fakt přítomnosti některých důležitých prvků neříká cokoliv o jejich relativní pozici. Z tohoto důvodu se PC nepoužívá místo, ale společně s RK.

Klasifikátor kontur ( QC) je speciální případ PC a liší se tím, že analyzuje obrysy zamýšleného znaku extrahovaného z původního obrázku. Obecně je jeho přesnost nižší než u plnohodnotného PC.

Diferenciální klasifikátor prvků ( MPC) je také podobný PC, ale používá se pouze k rozlišení mezi podobnými objekty, jako je „m“ a „rn“. Analyzuje tedy pouze ty oblasti, kde jsou rozdíly skryté, a dostává jako vstup nejen původní obrazy, ale také hypotézy vytvořené v raných fázích rozpoznávání. Princip jeho fungování je však poněkud odlišný od PC. Ve fázi tréninku se v N-rozměrném prostoru vytvoří dva „oblaky“ (skupiny bodů) možných hodnot pro každou ze dvou možností, poté se zkonstruuje nadrovina, která „oblaky“ od sebe oddělí a je přibližně ve stejné vzdálenosti od nich. Výsledek rozpoznání závisí na tom, do kterého poloprostoru spadá bod odpovídající původnímu obrázku.

MPC samo nepředkládá hypotézy, ale pouze zpřesňuje ty stávající (jejichž seznam je obecně řazen bublinovou metodou), takže nedochází k přímému posouzení jeho účinnosti, ale nepřímo se přirovnává k charakteristikám celou první úroveň rozpoznávání OCR. Je však zřejmé, že záleží na správnosti zvolených znaků a reprezentativnosti vzorku norem, což je úkol značně pracný.

Strukturní diferenciální klasifikátor ( KFOR) původně sloužil ke zpracování ručně psaných textů. Jeho úkolem je rozlišovat mezi podobnými objekty, jako je „C“ a „G“. SDK je tedy založeno na vlastnostech charakteristických pro každou dvojici znaků, jeho proces učení je ještě složitější než u MDC a jeho provozní rychlost je nižší než u všech předchozích klasifikátorů.

Strukturní klasifikátor ( SK) je pro ABBYY chloubou, původně byl vyvinut pro rozpoznávání takzvaného ručně psaného textu, tedy když člověk píše „tištěným“ písmenem, ale později byl použit pro tisk. Používá se v závěrečných fázích rozpoznávání a nabývá účinnosti poměrně zřídka, totiž pouze tehdy, když k němu dosáhnou alespoň dvě hypotézy s dostatečně vysokou pravděpodobností.

Kvalitativní charakteristiky všech klasifikátorů jsou shrnuty v následující tabulce. Umožňují však pouze vzájemné hodnocení účinnosti algoritmů, protože nejsou absolutní, ale jsou získány na základě zpracování konkrétního testovacího vzorku. Může se zdát, že v posledních fázích rozpoznávání se bojuje doslova o zlomek procenta, ale ve skutečnosti každý klasifikátor významně přispívá ke zvýšení přesnosti rozpoznávání - například SC snižuje počet chyb o znatelné 20 %.

	RK	PC	QC	MPC*	KFOR**	SK**
Přesnost pro první tři možnosti, %	99,29	99,81	99,30	99,87	99,88	-
Přesnost podle první možnosti, %	97,57	99,13	95,10	99,26	99,69	99,73

* vyhodnocení celé první úrovně algoritmu ABBYY OCR
** vyhodnocení celého algoritmu po přidání příslušného klasifikátoru

Je však zvláštní, že i přes poměrně vysokou přesnost samotný rozpoznávací algoritmus neučiní konečné rozhodnutí. V souladu s principem MDA jsou hypotézy předkládány na každé logické úrovni a jejich počet může exponenciálně růst. Proto je nepravděpodobné, že by sekvenční testování všech hypotéz bylo účinné, a proto systémy ABBYY OCR používají metodu strukturování hypotéz, tj. jejich přiřazování k jednomu nebo jinému modelu. Těch druhých je několik desítek, zde je jen několik jejich typů: slovo ze slovníku, slovo mimo slovník, arabské číslice, římské číslice, URL, regulární výraz – a každý může zahrnovat mnoho specifických modelů (např. slovo v jednom ze známých jazyků, latině, azbuce atd.).

Všechny konečné akce jsou prováděny s hypotézami vytvořenými pomocí modelů. Například kontextová kontrola určí jazyk dokumentu a okamžitě výrazně sníží pravděpodobnost, že modely používají nesprávné abecedy, a kontrola slovníku vyrovná chyby v nejistém rozpoznání určitých znaků: například slovo „turn“ je přítomno v Anglický slovník - na rozdíl od „tum“ (v každém případě nepatří mezi oblíbené). Ačkoli je priorita slovníku vyšší než priorita jakéhokoli klasifikátoru, není to nutně poslední možnost a obecně nezastavuje další kontroly: za prvé, jak bylo uvedeno výše, existuje model slova, které není ve slovníku, a za druhé , speciální organizace slovníků umožňuje s vysokou procentuální pravděpodobností uhodnout, zda nějaké neznámé slovo může patřit do určitého jazyka. Kontrola slovníků (a úplnost slovníků) má však významný vliv na výsledek rozpoznávání a ve vlastních testech společnosti ABBYY snižuje počet chyb téměř na polovinu.

Nejen OCR

Tištěné dokumenty nejsou zdaleka jediné zajímavé z hlediska jejich digitalizace a automatického zpracování. Poměrně často musíte pracovat s formuláři, tedy dokumenty s předdefinovanými a pevnými poli, které se vyplňují ručně, ale poměrně přesně (tzv. ručně tištěné znaky) – příkladem jsou různé dotazníky. Technologie jejich zpracování má samostatný název - ICR(inteligentní rozpoznávání znaků) – a dost výrazně se liší od OCR. Protože v tomto případě není úkolem znovu vytvořit celý dokument, ale extrahovat z něj konkrétní data, rozděluje se to na dva hlavní dílčí úkoly: nalezení potřebných polí a skutečné rozpoznání jejich obsahu.

Jedná se o poměrně specifickou oblast a společnost ABBYY pro ni nabízí zcela samostatný softwarový produkt ABBYY FlexiCapture. Je určen pro vytváření automatizovaných a poloautomatizovaných systémů, zahrnuje přizpůsobení pro konkrétní typy dokumentů, pro které jsou vytvářeny speciální šablony, umí inteligentně vyhledávat různá pole na stránkách a ověřovat data v nich atd. V samotném jádru jsou však rozpoznávání znaků algoritmy podobné těm, které se používají ve FineReaderu a obecné schéma je velmi podobné:

Stále však existuje důležitý rozdíl: strukturní klasifikátor je povinným účastníkem procesu - to je způsobeno specifiky ručně tištěných symbolů. ICR navíc zahrnuje velké množství specifických dodatečných kontrol: například zda není znak přeškrtnutý nebo zda rozpoznané znaky skutečně tvoří datum.

Vše o mobilních technologiích