FineReader を使った画像認識の基礎。 ABBYY FineReader Finereader の自動保存の使用方法

こんにちは。 今日は、Abbyy FineReader プログラムを使用して、スキャンの結果として受け取った画像からテキストを認識する方法について説明します。 スキャンしたテキストは完全に Microsoft Word 文書になり、この認識されたテキストは編集できます。 Abbyy Finereader を使用したテキストの認識は、テキストや翻訳を勉強したり、扱ったりする人にとって役立ちます。 残念ながら、このプログラムは有料です。 以前、同様のプログラムの無料版を試す機会がありましたが、非常によくスキャンされたテキストはまったくひどく認識されませんでした...そして、Abbyy FineReader のテキスト認識は非常に高品質であることが判明しました。 次に、Abbyy FineReader プログラムを使用して画像からテキストをすばやく認識する方法を説明します。

ABBYY FineReader には 30 日間の試用版があり、最大 100 ページを認識し、ドキュメントから最大 3 ページを保存できます。 それらの。 この間に、プログラムの機能を確認し、必要かどうか、購入する価値があるかどうかなど、情報に基づいた決定を下すことができます。

Abbyy FineReaderのインストール方法!

Abbyy Finereader を使用する前に、インストールする必要があります。 このプログラムのインストールプロセスを見てみましょう...

まず、プログラムの言語を選択します。 「OK」をクリックします。

使用許諾契約の条項に同意します (内容に興味がある場合は、ご希望に応じて使用許諾契約を読むことができます)。 「次へ」をクリックします。

次に、インストール モードを選択する必要があります。 通常モードでは、プログラムは何も尋ねず、デフォルトでプログラムで指定されているもの、つまりすべてのコンポーネント、つまり Abbyy Finereader テキスト認識プログラム自体、Microsoft Office プログラムのコンポーネント、および Windows Explorer のコンポーネント (これにより、別途プログラムを開かなくても画像をすばやく認識できます)。 カスタム インストールを確認して、必要な方法で構成することをお勧めします。 しかも、15 分もかかりません :) 以下は、プログラムがインストールされるフォルダーです。 後でプログラムを使用するときに問題が発生しないように、デフォルトの選択のままにすることをお勧めします。 「次へ」をクリックします。

プログラムのコンポーネント。 このウィンドウは、「カスタム」インストール タイプを選択した場合に表示されます。 コンポーネントとは、プログラムの補助アプリケーションのようなものです。 1 つ目のコンポーネントは「Microsoft Office プログラムおよび Windows Explorer との統合」です。 このコンポーネントは Microsoft Office メニューに表示され、コンピュータ上の画像を右クリックすると、このプログラムの項目が表示されます。 このコンポーネントを追加した後の Microsoft Office のメニューは次のようになります。

画像を右クリックすると次のようになります。

それらの。 メニューが表示され、テキスト認識を迅速に実行し、結果を Word、Excel、または PDF に送信できます。

2 番目のコンポーネントを使用すると、コンピュータ画面のテキストを認識できるようになります。 つまり、スクリーンショットを撮ってテキストを認識することもできます。 これらのコンポーネントのいずれかをインストールしたくない場合、または両方をインストールしたくない場合は、下矢印をクリックして「このコンポーネントは利用できません」を選択する必要があります。 この場合、コンポーネントはインストールされません。 両方とも残しました。

次は4点。 1 つ目は、Abbyy Finereader プログラムの使用方法に関する情報が開発者に転送されることを意味します。 プログラムが再びオンラインになって動作に関する情報が送信されないようにするため、この項目をチェックしないことをお勧めします。 さらに、他にどのような情報が送信されるかはわかりません :) 2 番目のポイントは、デスクトップにプログラムへのショートカットを作成します。 3 番目は、コンピューターの電源を入れるとプログラムが開始され、4 番目はプログラムの更新を確認することを意味します。 2 番目のみを残し、その横にチェックを入れておきます。 インストーラで Microsoft Office アプリケーションが必要となるため、すべての Microsoft Office アプリケーションを閉じて、[インストール] をクリックします。

プログラムがロードされるまで数分待つ必要があり、「次へ」をクリックします。

以上で、インストールは完了です! 「完了」をクリックします。

Abbyy Finereader を使用して、スキャンした画像やその他の画像からテキストを認識するにはどうすればよいですか?

プログラムの使用方法を見てみましょう。 たとえば、テキストをスキャンしたとします。 次に、Abbyy FineReader でテキストを認識するには、プログラムを開きます。 「開く」をクリックします。

必要な画像を選択し、「開く」をクリックします。

目的の文書を開くと、Abbyy Finereader がテキストの認識を開始します。 ドキュメントが大きいほど、認識に時間がかかります。 1 ページの認識には数秒かかる場合があります。

テキストが認識されたら、その結果を Microsoft Word 文書に保存するだけで、文書内の内容を編集できるようになります。 これを行うには、上部のツールバーの「保存」ボタンをクリックし、Word 文書をどのフォルダーにどの名前で保存するかを選択します。

スキャナがコンピュータに接続されている場合は、プログラムから直接スキャンを開始でき、その後スキャンされた文書はすぐに認識されます。 これを行うには、上部のツールバーにある「スキャン」ボタンをクリックします。 次の手順は、プリンターのドライバー プログラムによって異なります。 スキャン ウィザードの指示に従うだけです。

ご覧のとおり、すべてが非常にシンプルかつ高速です。 これで、Abbyy FineReader を使用して画像からテキストを認識する方法がわかりました。 この情報が多くの人に役立つことを願っています:) 頑張ってください!

会話は ABBYY FineReader 12 プログラム、つまりその最新バージョンについて行われます。 あまり深く考えずに、ABBYY の最も有名な製品を選択しました。これは、その利点から見て、完全にロシア化されています。 Fine Reader (FR) は、一見したところ、ロシア語が充実したサポートを備えたプログラムであるかのような印象を与えます。実際、この点では、背景情報も含め、すべてが非常に適切なレベルで行われています。

まず - 撤退。 アーカイブの全体または一部をどのようにデジタル形式に変換するかという問題は、常に重要です (そして実際、「デジタル」という言葉が何を意味するのか)。 スキャナーを購入してもすべての問題が解決するわけではありません。 もちろん、スキャナのマニュアルには、独自のソフトウェアを備えた 1 枚または複数のディスクが付属していることがよくあります。 しかし、すでにサニタイズ段階で、スキャン プログラムの品質にまだ改善の余地があるか、保存が行われる形式が残念ながら保存に適していないことが判明しています。 なぜ? ほとんどのグラフィック形式では、文書のテキスト以外の領域からテキストが分離されていないため、そのようなファイルから文章をコピーすることはできません。

このような場合には、機能的なテキスト認識プログラムが役に立ちます。その機能には、特に画像からのテキストの抽出が含まれます。

ABBYY FineReader について知る

ビニール袋 ABBYY ファインリーダー 12- 光学式文字認識 (OCR) システム。 印刷されたドキュメントをコンピュータに自動入力することと、PDF ドキュメントや写真を編集可能な形式に変換することの両方のために設計されています。 (プログラムマニュアルより)

「OCR」という頭字語は、すべてのデータ認識アプリケーション (テキストだけでなく) に適用されます。 データ抽出のソースとしては、印刷文書または電子文書を使用できます。 かつて、それほど昔のことではないが、何らかの形式で OCR について知っている人はほとんどいなかったため、テキストを電子形式に変換するプロセスは、元のテキストを手動で再印刷するところまで、単なるルーティンになっていました。 現在では、フラットベッド スキャナーを使用し (自宅で手動スキャナーを使用している人はわずかです)、 ファインリーダー 12- スキャンや認識に問題は​​ありませんのでご安心ください。

第 6 バージョン以降、FineReader は、Adobe が特許を取得した PDF 形式へのインポートとエクスポートをサポートします。 この分野には本当に役立つプログラムがそれほど多くないため (注目に値する唯一のプログラムは ABBYY の補助製品である PDF Transformer です)、多くの読者はおそらくこの形式から他の形式 (ドキュメントなど) に翻訳する際に困難に遭遇したことがあるでしょう。 実際のところ、そのようなプログラムはテキスト認識を一度しか実行しないため、結果の「同一性」はまったく重要ではなく(文書の複雑さによって異なります)、加えて文書の書式設定はほとんど失われます。

FineReader の場合は、すべてが異なります。 プログラムの 9 番目のバージョンでは、Document OCR と呼ばれるテクノロジが導入されています。 これは統合文書認識の原理に基づいており、ページごとではなく単一の全体として分析および認識されます。 同時に、あらゆる種類の列、ヘッダー、フォント、スタイル、脚注、画像は変更されないか、オリジナルに近いものに置き換えられます。

パッケージのインストール

Finereader 12 のデモ バージョンは、Abbyy.ru Web サイトの「ダウンロード」セクションでダウンロードできます。フル ライセンス バージョンは CD で配布されています。 購入方法は同サイトの「購入する」セクションで確認できる。

ABBYY 開発者 Web サイトでは、ABBYY FineReader パッケージ バージョン 12 (または現在の最新バージョン) のデモ バージョンをダウンロードできます。

ABBYY FineReader は、Professional Edition、Corporate Edition、Site License Edition などのいくつかのバージョンで配布されています。Professional バージョンと他のバージョンの違いは、文書認識で共同作業できる機能を備え、企業ネットワーク内で動作するように設計されていることです。 それ以外の場合、違いはわずかであり、使用許諾契約の条項の選択によって異なります。

12 年前に約 10 MB のディスク領域を占有していた FineReader 2.0 が存在したことを想像するのは困難です。 時間の経過とともに、パッケージは 10 倍に増大し、インストール時に最大 300 MB を必要とするようになりました。 それが多いか少ないか - 自分で判断してください。 新しい FR は、あまり知られていない人工言語 (イド語、インターリングア、西方語、エスペラント語)、プログラミング言語、数式などを含む 179 の認識言語をサポートしています。さまざまな形式やスクリプトのサポートも忘れてはなりません。 したがって、何らかの理由で、インストール時にパッケージが占有するスペースを制限したい場合は、動作中に必要なコンポーネントのみを選択してください。

コンポーネントの選択はインストール時間に影響しますが、それほど時間はかかりません。 インストールプロセス中に、FR の主な機能が紹介されます。 アクティベーション後 (インターネット経由、電子メール経由、受信したコードの使用など)、プログラムはすべての機能を使用できるようになります。 デモ モードでは、残念ながらパッケージを完全に使用できないさまざまな制限に遭遇することになります。

FineReader インターフェイス。 機能性

プログラムの機能へのアクセスは、インストール プロセスの直後にメイン メニューに表示されるスクリプトを通じて行うことも、実際にはメイン インターフェイスを通じて行うこともできます。


FineReader 起動時のスクリーンセーバー

プログラムの外観はバージョンごとに大きな変更はありません。開発者は、プログラムを根本的に変更する意味を理解していません。 人間工学には細心の注意が払われており、それはすべての ABBYY 製品 (Lingvo、PDF Transformer、FlexiCapture など) で顕著です。 言い換えれば、Fine Reader 12 のインターフェイスはよく考えられており、初心者を含むすべてのユーザーに適しています。 「ワンクリックで結果が得られる」という原則は、何かを設定したり変更したりすることに慣れていない人にとって魅力的です。 一方、経験豊富なユーザーは、設定ダイアログ ([ツール] -> [オプション…]) を通じて FineReader を慎重に構成できます。 唯一の注意点: アプリケーションで快適に作業するには、すべてのツールが常に手元にあるように、画面解像度を 1280 × 800 に設定することをお勧めします。

Fine Reader プログラムを起動すると、プログラムの機能に素早くアクセスするためのボタンを備えたウィンドウが表示されます。 このメニューは、[ツール] -> [ABBYY FineReader] メニュー、プログラムの右端にある [メイン スクリプト] ボタン、または Ctrl+N キーの組み合わせ (この組み合わせにより新しい文書が開く Word と同様) からも利用できます。 。

Microsoft Word にスキャンして保存します。 FineReader の 9 番目のバージョンでは、まだ普及していない Microsoft Word 2007 がサポートされるようになり、FR をインストールした後の Microsoft Office アプリケーションのツールバーのアドオン セクションに「ブランド」の赤いアイコンが表示されます。


認識された FineReader ドキュメントをエクスポートするためのメニュー
スキャンおよび文書認識用の言語の選択

Microsoft Office に加えて、FR は Microsoft Outlook との統合をサポートし、認識結果を Microsoft Word、Excel、Lotus Word Pro、Corel WordPerect、および Adob​​e Acrobat にエクスポートします。 これらの機能により、特に定期的にプログラムを使用する必要がある場合に、プログラムの使用がいくらか簡単かつ迅速になります。

PDF または Microsoft Word の画像: Finereader バージョン 12 でサポートされている PDF またはその他の種類のグラフィック ファイルからのデータを認識します。 FR で PDF ファイルからテキストを抽出するテクノロジーは、グラフィック コンテンツからテキスト コンテンツ (PDF のテキスト レイヤーが存在しない場合もあります) を単純に「剥がす」わけではないことに注意してください。 実際、認識テクノロジは非常に複雑です。文書の内容を分析した後、プログラムはテキストをどのように処理するかを決定します。テキストの断片ごとに単純に抽出するか認識するなどです。

Microsoft Excel にスキャン:スキャンされた画像に表が含まれている場合は、XLS (Microsoft Excel 形式) へのスキャンが正当化される場合があります。

スキャンして PDF:スキャンして PDF に保存する理由はたくさんあります。 その 1 つはセキュリティです。これは、FR でおなじみの設定でパスワード ロックを設定できる唯一の形式です。 パスワードは文書を開くときだけでなく、印刷などの操作にも設定されます。 暗号化レベルは 40 ビット、RC4 規格に基づく 128 ビット、AES (Advanced Encryption Standard) 規格に基づく 128 ビットの 3 つから選択できます。

写真を Microsoft Word に変換します。ファイルをグラフィック形式 (PDF または複数ページの画像) から DOC / DOCX に変換します。

Fine Reader で開く: FineReader 認識用にグラフィック ファイル (PDF、BMP、PCX、DCX、JPEG、JPEG 2000、TIFF、PNG) を開きます。

FineReader での作業

さて、プログラムの機能について簡単に説明します。 プロセス全体は、スキャン、認識、結果の保存に分かれています。 プログラム アクションの種類を選択し、スキャンするファイルまたはデバイスを指定すると、FineReader はそのタスクを段階的に実行します。ちなみに、これは中央プロセッサにとって非常に多くのリソースを消費します。

デュアルコア プロセッサの幸運な所有者であれば、Fine Reader 12 パッケージで作業することで、コンピュータのパフォーマンスの威力を実感することができます。 実際のところ、FR はデュアルコア プロセッサを検出すると、ドキュメントの 1 ページではなく 2 ページを並行して認識します。 小さなことですが、それはいいことです。

まずスキャンが行われ、次に一時文書が認識されて、選択した形式にエクスポートされます。


PDF文書認識プロセス

走査。スキャン前に、FineReader アプリケーションで事前設定 (読み取りデバイスの選択を除く) を行う必要はありません。 これが、スクリプトが発明された理由です。スクリプトは、同様のアクションの実行を簡素化するように設計されています。

認識。簡素化は他の小さなことにも影響を与えました。 したがって、プログラムの以前のバージョンを思い出してみると、以前はドキュメントの言語 (複数ある場合は言語) を手動で変更する必要がありました。 常にではありませんが、これは自動的に行われるようになりました。 後者の場合、FR は文書の言語を確認するよう控えめに提案します。

FR 認識テクノロジーの話に戻ります。なぜプログラムは最初に文書全体をページごとにスキャンするのではなく、全体としてスキャンするのでしょうか? すでに述べたように、テキストはコンテンツ全体に基づいて認識されます。同様のサイズ/書体、表と枠線、インデントなどのフォントが選択されます。

FineReader 12 で、テキスト領域が見つからないためページを認識できないというメッセージが表示されても驚かないでください。 実験のために、携帯電話を使用して液晶ディスプレイ画面からテキスト文書の領域を撮影しました(ただし、結果は事前にわかっていました)。 Fine Reader 12 は画像のテキストを認識できませんでした。画像の品質が明らかに不十分だったためです。 2 回目の訪問では、デジタル カメラを使用して、通常の照明でテキストが含まれるページの写真を撮りました。

FineReader は文章を問題なく認識し、書式設定を保持し、疑わしい部分やスペルが異なる可能性のある文字をマーカーで強調表示しました。

画像からわかるように、これらは主にピリオド、ハイフン、カンマ、つまり小さな文字です。 さらに、プログラムが撮影されたページの凹凸や湾曲を考慮してテキストの行を揃えていることがはっきりとわかります。 結論 - FR は、それほど難しいタスクではありませんでしたが、素晴らしい仕事をしてくれました。

場合によっては、Fine Reader プログラムによって小さな問題が検出されないことがありますが、それらは手動で簡単に修正できます。 幸いなことに、このパッケージには独自の WYSIWYG エディターがあり、その機能はドキュメントの最終編集を行うのに十分です。 スペルチェックも可能です。

認識精度を向上させて、テキストの編集時間を短縮するにはどうすればよいでしょうか? まず、カスタム Microsoft Word 辞書を接続できます。 確かに、おそらくスペル チェッカー (スペルと文法をチェックするモジュール) の語彙の増加を除いて、精度の向上を判断するのは困難です。 とりわけ、認識を改善するには、プログラム設定 ([ツール] -> [オプション]) をよく理解し、次の 2 つのモードのいずれかを選択することが重要です。

慎重な認識- グリッド線のない表、テキスト、グラフ、色付きの背景の表など、あらゆる「複雑さ」のドキュメントを認識するときに選択できます。また、低品質の認識ソースにも役立ちます。

高速認識- このモードは、シンプルなデザインで大量のドキュメントを処理する場合、または時間がなく完全な認識ができない場合に推奨されます。 ほとんどの場合、白い背景に黒いテキストが印刷されている場合は、すぐに認識できるようになります。

一般に、FineReader の作業品質の向上は別の会話のトピックであり、詳細は公式ヘルプ、つまり「得られた結果を向上させる方法」セクションで学ぶことができます。

文書を保存しています。 Fine Reader 12 プログラムの作業の最終段階では、最終結果を特定のグラフィック/テキスト形式で保存します。 事前保存設定は、FR オプションで指定できます: [ツール] -> [オプション]、[保存] タブ。 各形式には独自の設定があります。 DOCX 形式で保存する場合は、形式の互換性に注意する必要があります (DOCX ファイルは Word 2003 では認識されません)。<). В txt-файлах не забудьте проверить правильность кодировки (особенно в случае с текстом в кириллице).

ABBYY スクリーンショット リーダー

多くの大規模なパッケージでは、開発者は小規模なサービス ユーティリティを追加することを好むことがよくあります。 有名なディスク書き込みアプリケーション Nero には、Nero 自体でも実行できないことを実行できる 3 ~ 5 個のユーティリティのセットが含まれているとします。 レビューします (Fine Reader 12 の一部としてここからダウンロードすることもできます)。

FineReader に関しては、Screenshot Reader という小さなアプリケーションが 1 つ含まれています。 これを使用すると、スクリーンショットを撮り、FR を使用して希望の形式にすばやく変換できます。 このプログラムは、[スタート] メニューから利用できます ([スタート] -> [すべてのプログラム] -> [ABBYY FineReader 12.0] -> [ABBYY Screenshot Reader])。

Screenshot Reader の機能は、一見したよりもいくらか広範です。 (それ以外の場合は、キーボードの「PrintScreen」キーを押すだけでも実行できます)。 画面 (より正確には、画面の選択した領域) のスクリーンショットを撮ることに加えて、Screenshot Reader は FR と緊密に統合されています。

スクリーンショットリーダーパネルの「スナップショット」ボタンをクリックすると、カーソルの形状が変化し、画面領域選択ツールが起動します。 画像の選択した領域は、さらなるテキスト認識のためにフレーム化されます(自動的に実行されます)。

ドロップダウン リストで、目的のアクションを選択できます。実際、スクリーンショット リーダーはクイック FR スクリプトを複製しますが、スキャナーからのスクリーンショットの代わりにスクリーンショットが入力として受信される点が異なります。

このプログラムは、パッケージ全体とともにアクティベーションが必要であることに注意してください。 製品登録時に「特典」としてABBYY FineReader 12 Professional Edition Screenshot Readerが無料で提供されます。

結論

FineReader は、グラフィック データをスキャンして認識するために不可欠なプログラムです。 ロシア語のインターフェイスと設定へのアクセシビリティは、経験の浅いユーザーでも怖がることはありません。 最新のフォーマット、革新的なテクノロジーのサポート、そしてその結果としての高品質の認識により、特に ABBYY FineReader にはこの分野でまだ競合他社が存在しないため、このプログラムは最適な選択肢となっています。

FineReader 12 ホットキー

  • 新しい ABBYY FineReader ドキュメントを作成する- CTRL +N
  • ABBYY FineReader ドキュメントを開く 12 - CTRL + SHIFT + N
  • ページを保存する- CTRL +S
  • 画像をファイルに保存- CTRL +ALT+S
  • 文書のすべてのページを認識する- CTRL + SHIFT + R
  • 現在のページを閉じる- CTRL +F4
  • ABBYY FineReader ドキュメントの選択したページを認識します- CTRL + R
  • シナリオマネージャーを開く- CTRL +T
  • Fine Reader オプションダイアログを開く- CTRL + SHIFT + O
  • ヘルプを開く- F1
  • ドキュメントウィンドウに移動します-ALT +1
  • 画像ウィンドウに移動します- ALT +2
  • テキストウィンドウに移動します- ALT +3
  • ウィンドウへ移動 クローズアップ- ALT +4

したがって、コンピュータには FineReader がインストールされています。 スキャナーの電源を入れ、複数ページの文書をデジタル化します。 条件付きでこれを「合意」と呼びましょう。

原稿の最初のページをスキャナー ガラスの上に置き、蓋を閉じます。 FineReader プログラムを起動します。 「スキャン」ボタンをクリックするか、「Ctrl+K」の組み合わせを押します。 「ABBYY FineReader スキャン」ウィンドウが開きます。 11 ~ 12 ポイントのフォントで入力された通常のテキスト ページをデジタル化する場合は、ウィンドウのデフォルト設定のままにして「表示」ボタンをクリックします。

スキャナが動作し、数秒後に表示ウィンドウにページが表示されます。 ここで、必要に応じてスキャンのサイズを変更できます。 そして、「スキャン」ボタンをクリックします。

FineReader がテキスト認識プロセスを開始し、1 分以内にプログラム ウィンドウにページ画像が開きます。 ウィンドウの右側が 3 つのセクションに分割されました。 左側のセクション「画像」で画像を編集できます。 画像編集について詳しくは、「本のスキャン」のレッスンをご覧ください。 右側のセクション「テキスト」では、テキストをすぐに変更できます。ページを保存する前でも、ページのコンテンツを編集できます。 これは、たとえば文書内の日付、詳細、姓をすばやく変更する必要がある場合に非常に便利です。

認識されたページのアイコンが「ページ」ウィンドウの左側に表示されます。

何も編集する必要がない場合は、スキャナー ガラスの最初のページを 2 ページ目に置き換えて、このテクノロジーを繰り返します。 最初のページの「プレビュー」モードの「ABBYY FineReader スキャン」ウィンドウでスキャン サイズを一度調整したら、すぐに「スキャン」ボタンをクリックします。 最初のページの設定が保存され、後続のページはプレビューなしでスキャンされます。 そこで、文書のすべてのページをスキャンします。

これで完了です。アイコンを 1 つずつクリックしてページを開き、正しい順序を確認します。

その後、「ページ」ウィンドウの左側で、「編集 - すべて選択」ボタンまたはキーボード ショートカット「Ctrl + A」を使用してすべてのアイコンを選択します。 次に、[保存] ボタンの横にあるドロップダウン リストで、[PDF ドキュメントとして保存] コマンドを選択します。


次に、ボタン自体をクリックし、文書を「Agreement.pdf」という名前で「Agreement」フォルダーに保存します。


その結果、複数ページのテキスト文書を PDF 形式で取得します。これは、「Agreement」というコード名を持つ文書の電子版です。

そこで、FineReader を使用してテキスト文書をデジタル化します。

「ABBYY FineReader Scanning」ウィンドウでスキャンモードを「カラー」に変更すると、カラー写真や写真も簡単にデジタル化できます。

そして、コンテキスト メニューで、たとえば「Microsoft Word 2007 ドキュメントとして保存」コマンドを設定すると、プロジェクトが単一の複数ページの編集可能な Word ドキュメントに変換されます。

一般に、このプログラムは理解しやすく直感的で、随所にポップアップヒントが表示されます。

今回は、紙の文書を電子PDF形式にする方法と、紙の文書をパソコンに転送して文字を変更する方法を説明します。 それでは、始めましょう。
私は手に紙の書類を持っています。

スキャンしてPDFに変換

タスク: この文書をコンピュータに転送します (電子形式に変換します)。 さらに、将来変更できないように、このフォームで正確に行う必要があります(大まかに言うと、書類の写真を撮る必要があります)。 次に、この電子文書を電子メール アドレスに郵送する必要があります。 また、クライアントはPDF形式で要求します。

段階別:
1) 書類をスキャナーに通します
2) 結果の印刷物を PDF 形式でコンピューターに保存します
3) 受信したファイルをメールで送信します
私の仕事では、この問題を解決するために 2 つのプログラムを使用しています。
Foxit Phantom または ABBYY FineReader。 わかりやすくするために、スクリーンショットを添付します。
Foxit Phantom では、スキャナーの電源が入っているときに、メイン メニューで [ファイル] - [スキャナーから PDF を作成] を選択する必要があります。
スキャンが実行され、ファイルを保存するように求められます。 場所を選択し、ファイル名を書き込んで保存します。

ABBYY FineReader のツールバーには大きなボタンがあります。 そのうちの 1 つは SCAN to PDF と呼ばれます。 私たちはそれを使っています。

複数ページの文書をスキャンする必要がある場合は、段階的に次の手順を実行します。
1) ボタン番号 1 SCAN を押します。

スキャンされた文書を受け取ります

別のページもスキャンします (ボタン番号 1 SCAN をもう一度押します)。
2) PDFとして保存



その結果、PDF ファイルの形式で完成した複数ページのドキュメントが得られます。

これで、このファイルを電子メールで送信できるようになりました。

テキスト認識

タスク: 紙の文書を電子形式に (コンピューターに) 変換します。

段階別:
1) スキャン (ボタン 1 SCAN)

2) 認識 (ボタン 2 RECOGNIZE ALL)

認識は、写真(絵)をテキスト(文字、数字、記号)に変換するプロセスとして理解されるべきです。 テキスト ページを写真に撮った場合、紙のテキストの 99% が認識された後、電子テキストに変換されます。 電子テキストはすでにコンピュータ上で自由に変更(編集)することができます。

3) テキストエディタへの保存(ボタン4 保存)
「すべてのページをMICROSOFT WORDに転送」を選択することをお勧めします。

我々が得る

承認手続きにおける重要なポイントを指摘したいと思います。 作業時にはニュアンスがあります。
認識したらすぐに結果を見ることをお勧めします。 特に、FineReader プログラムが作成するブロックに関してはそうです。

これらは、長方形の枠で強調表示されている領域です。 これらのフレームは異なる色です。 赤の場合、このブロックは画像​​として認識されます。 黒の場合はTEXTです。 ブロックにはさまざまな種類があります。 ブロック タイプを確認するには、マウスの右ボタンでブロックをクリックし、[ブロック タイプの変更] を選択します。

ちょっとしたトリック: 任意の領域を選択し、任意のタイプのブロックでラベルを付けることができます。 たとえば、マウスの左ボタンを使用して、認識されにくいテキストの部分を選択してみましょう (クリックして押したままドラッグすると、フレームのサイズが変わります)。

その結果、Word の文書にはテキストのブロックと画像のブロックが含まれます。 ブロック画像の外観はまったく変わりません。 私はスタンプや非標準フォント、絵や写真を保存するときにこの方法を使っています。

PS: PDF を操作したり、文書をスキャンして認識したりする知識と能力は、オフィスでの仕事に役立つことがよくあります。 知識があれば時間を節約できます!

過去 50 年間にわたる人工知能 (AI) の進歩によって、スマート マシンは人間の認知能力に少しも近づいたわけではありませんが、この方向の進歩を完全に否定するのは不公平でしょう。 最も明白で印象的な例はチェスです (より単純なゲームは言うまでもありません)。 コンピュータはまだ私たちの思考を模倣することはできませんが、大量の特殊なメモリと検索速度によってこのギャップを補うことは十分に可能です。 ウラジミール・クラムニクは、2006年に自分を破ったディープ・フリッツ・プログラムの試合を、確立された(人間的な)戦略と戦術のルールにしばしば矛盾するという意味で「非人間的」だと評した。

そしてちょうど1年ほど前、かつてコンピューター(有名なディープ・ブルー)のチェスの勝利の基礎を築いたIBMのもう一つの発案であるワトソンが、アメリカの人気クイズ「ジェパディ」の2人のチャンピオンを破り、新たな躍進を遂げた。大差で。 ただし、ワトソンが独自に答えを発声したにもかかわらず、質問は依然としてテキスト形式で送信されたことは重要です。 これは、AI アプリケーションの多くの分野 (音声認識、画像認識、機械翻訳) での成功はかなり控えめであることを示唆していますが、これによって今日実際に AI を使用することが妨げられるわけではありません。 おそらく、最大の成功は光学式文字認識システム (OCR、光学式文字認識) によって実証されており、ほぼすべての PC ユーザーが何らかの形で精通していると思われます。 さらに、この分野におけるロシアの発展は世界で価値ある地位を占めています - ABBYY FineReader のことです。

ちょっとした歴史

ABBYY FineReader の現在のバージョンは 11 番です。つまり、このアプリケーションは非常に長い開発過程を経ており、このプロセスの歴史さえも興味深いものです。 網羅的な年代記を装うつもりはありませんが、私が多かれ少なかれ FineReader をフォローしてきた過去 10 年間の主なマイルストーンのみを紹介します。

バージョン主な特徴
2003 7.0 認識精度が最大 25% 向上。 これは表、特に色付きのセルや隠れた仕切りなどを備えた複雑な表に最もよく反映されていました。
2005 8.0 認識アルゴリズムのさらなる最適化は、主にスキャンされた文書ではなくデジタル写真で動作することを目的としています。 そのために、原稿を作成するための追加機能(歪みの除去、線の位置合わせなど)が登場しました。
2007 9.0 ADRT テクノロジーの出現。処理される (複数ページの) ドキュメント全体の論理構造を考慮し、繰り返し要素 (ヘッダーとフッター) を強調表示したり、「流れる」オブジェクト (表) を接続したりすることができます。
2009 10.0 ADRT と認識アルゴリズムがさらに改善され、低解像度のオリジナルの処理精度が最大 30% 向上しました。
2011 11.0 主な注意はプログラムの速度に払われます。 白黒モードの「再臨」。高品質のオリジナルでは最大 30% の追加加速が得られます。

当然のことながら、同じ時期に、FineReader はドキュメント形式のサポートを拡張し、組み込みツールとインターフェイスの改善、オリジナルの構造の再構築の改善などを行いました。ただし、強調表示されている点は OCR テクノロジに直接関連しており、開発プロセスの激動をよく示しています。これは、次の「ブレークスルー」の後に、新しいアルゴリズムを改善するために必要な一定期間の「静寂」が続く、複雑な知識集約型システムの特徴です。 これらは OCR プログラムの主な価値を表すため、それらに関する詳細情報がユーザーに届くことはほとんどありません。 しかし、ABBYY は秘密のベールを解くことに快く同意し、今日私たちは FineReader の神聖なるものを調べる機会を得ました。

基本原則

したがって、OCR は AI の分野に属しているため、開発者が少なくともある程度は私たちの脳の活動を模倣しようと努めるのは論理的です。 もちろん、私たちの視覚システムの構造は信じられないほど複雑ですが、その機能の基本的な「大きなブロック」原理は十分に研究されており、通常、そのうちの 3 つがあります。

  1. 誠実さ- オブジェクトは、その部分と、(視覚的なイメージの場合) それらの間の空間的関係の集合として考えられます。 次に、部分はオブジェクト全体の一部としてのみ解釈されます。 この原則は、仮説を構築して明確にし、可能性の低い仮説をすぐに排除するのに役立ちます。
  2. 目的意識- データの解釈は特定の目標を追求するため、認識はオブジェクトに関する仮説を立て、それらを意図的にテストするプロセスです。 この原則に従ってシステムが動作すると、計算能力がより経済的に使用されるだけでなく、間違いも少なくなります。
  3. 適応性- システムは動作中に蓄積された情報を保存し、それを再利用します。つまり、システム自体が学習します。 この原則により、新しい知識を創造して蓄積し、同じ問題を繰り返し解決することを避けることができます。

FineReader は、文書処理のすべての段階で上記の原則に従って動作する世界で唯一の OCR システムです。 対応するテクノロジーは次のように呼ばれます。 IPA- 英語の用語の最初の文字に従って。 たとえば、完全性の原則によれば、画像の断片は、類似したオブジェクトのすべての構造部分と、特定の関係にある部分が含まれている場合にのみ、シンボルとして解釈されます。 これは、認識された文書内の文字の輪郭の可能性について以前に蓄積された情報に依存して、多数の標準の検索 (多かれ少なかれ適切な標準の検索) を、妥当な数の仮説の的を絞ったテストに置き換えるのに役立ちます。 。

ただし、IPA の原則は、(おそらく) 個々の文字に対応するフラグメントだけでなく、ページのソース画像全体を分析する場合にも適用されます。 ほとんどの OCR システムは、文書の階層構造の認識に基づいています。つまり、ページは、表、画像、テキストのブロックなどの基本的な構造要素に分割され、さらにそれらは他の特徴的なオブジェクト (セル、段落)、およびその他の特徴的なオブジェクトに分割されます。個々のキャラクターに至るまで。

このような分析は、主に 2 つの方法で実行できます。1 つはトップダウン、つまり構成要素から個々の文字に至る方法で、もう 1 つはボトムアップです。 そのうちの 1 つが最もよく使用されますが、ABBYY は特別なアルゴリズムを開発しました MDA(マルチレベル文書分析)、両方を組み合わせたものです。 簡単に説明すると、ページの構造はトップダウン方式で分析され、認識完了後の電子文書の再構築はボトムアップで行われますが、すべてのレベルで追加のフィードバック メカニズムが存在します。 その結果、高レベルのオブジェクトの誤認識に関連する重大なエラーの可能性が大幅に減少します。

ADRT

歴史的に、OCR システムは個々の文字を認識することから発展してきました。 このタスクは依然として最も重要かつ最も困難であり、最も複雑なアルゴリズムがそれに関連付けられています。 しかし、より高いレベルの情報 (たとえば、文書の言語や認識された単語の正しいスペルなど) がこの問題の解決に役立つ可能性があることがすぐに明らかになりました。これが、文脈チェックと辞書チェックが登場した方法です。 その後、書式設定を保持し、文書の物理構造 (さまざまなオブジェクトの相対位置) を再作成したいという要望により、ページ全体の詳細な分析が必要になりました。 これは、複数列レイアウト、表、その他の「非線形」テキスト配置方法を正しく処理するのに役立つため、認識の全体的な品質にも大きな影響を与えることは明らかです。

最新の OCR のほとんどは、文字、単語、ページの 3 つのレベルで正確に動作し、すでに述べたように、トップダウンまたはボトムアップのアプローチを実践します。 しかし、ABBYY は IPA の原則に従って、FineReader に別のレベル、つまり複数ページのドキュメント全体を導入しました。 まず第一に、これは論理構造を正確に再現するために必要でしたが、現代の文書では論理構造はますます複雑になっています。 しかし、追加のボーナスもあります。反復オブジェクトの精度の向上と処理の高速化、ページからページへ「流れる」オブジェクトのより正確な識別 (したがって認識) です。

まさにこれが開発された理由です ADRT(Adaptive Document Recognition Technology) - 論理レベルでの文書の分析と合成のための技術。 最終的には、FineReader の結果をオリジナルとできるだけ似たものにするのに役立ちます。 これを行うために、文書全体の画像が分析され、認識された単語がスタイル、環境、ページ上の位置に応じてグループ (クラスター) に結合されます。 このようにして、プログラムはドキュメント マークアップの「ロジック」を認識し、結果のデザインを統一できるようになります。

ADRT のおかげで、バージョン 9.0 以降の FineReader は、次の構造部分とドキュメントの書式設定要素を検出、認識、再現する方法を学習しました。

  • 本文。
  • ヘッダーとフッター。
  • ページ番号。
  • 同じレベルのヘッダー。
  • 目次;
  • テキストの挿入。
  • 図面のキャプション。
  • テーブル。
  • 脚注;
  • 署名/押印ゾーン。
  • フォントとスタイル。

認識プロセス

MDA アルゴリズムに従って、実際の認識はページ レベルで上から下に始まります。 このプロセスの初期段階で誤った決定が下されるほど、その後の決定でより多くの誤った決定が行われることは明らかです。 このため、認識精度はオリジナルの品質に大きく依存しますが、前処理アルゴリズムも大きな影響を与える可能性があります。 したがって、FineReader でのカラー ドキュメントの人気が高まるにつれて、適応型 2 値化手順が登場しました。 AB)。 透かしがある場合、またはテクスチャまたはカラー素材上にテキストが配置されている場合に、ドキュメントをすぐに白黒モードでスキャンすると、必ず画像上に「ゴミ」が表示され、「ゴミ」から分離するのが非常に困難になります。役に立つ」イメージ(彼に関する元の情報はすでに失われているため)。 そのため、FineReader はカラー イメージまたはグレースケール イメージを処理し、それらを独立して白黒に変換します (このプロセスは 2 値化と呼ばれます)。 しかし、それだけではありません。 テキストと背景の色はページ内、さらには個々の行内で異なる場合があるため、AB はほぼ同じ特徴を持つ単語を識別し、認識品質の観点からそれぞれに最適な 2 値化パラメーターを選択します。 これはまさにアルゴリズムの適応性であり、MDA でのフィードバックの使用例となります。 AB の有効性がソース文書の設計に大きく依存していることは明らかです。ABBYY テストベースでは、このアルゴリズムにより認識精度が 14.5% 向上しました。

しかし、もちろん、最も興味深いのは、認識プロセスが最も低いレベルに下降するときに始まります。 いわゆる線形分割手順では、行が単語に分割され、単語が個々の文字に分割されます。 次に、IPA の原則に従って、一連の仮説 (つまり、これがどのような種類の記号であるか、単語がどのような記号に分割されるかなどについて考えられるオプション) を生成し、それぞれに確率推定値を提供して、それを渡します。文字認識メカニズムの入力に。 後者は、いわゆるいくつかの要素で構成されます。 分類子、それぞれの仮説は、予想される確率の程度によってランク付けされた多数の仮説も生成します。 分類器の最も重要な特性は、正しい仮説の平均位置です。 値が高くなるほど、後続のアルゴリズム (辞書チェックなど) の作業が少なくなるのは明らかです。 しかし、十分に確立された分類器の場合、最初の 3 つの仮説に基づく認識精度、または最初の仮説のみに基づく認識精度などの特性が評価されることが最も多くなります。つまり、大まかに言えば、3 回または 1 回の試行で正解を推測する能力です。 ABBYY は、そのシステムで次のタイプの分類子を使用します: ラスター、フィーチャ、フィーチャ微分、輪郭、構造、構造微分。これらは 2 つの論理レベルでグループ化されます。

動作原理 RK、またはラスター分類子は、文字イメージと標準とのピクセルごとの比較に基づいています。 後者は、トレーニング セットからの画像を平均化した結果として形成され、特定の標準形式に縮小されます。 したがって、要素のサイズ、厚さ、および傾きも、認識された画像に対して事前に正規化されます。 この分類器は、実装の容易さ、動作速度、および画像欠陥に対する耐性を特徴としていますが、精度が比較的低いため、仮説のリストを迅速に生成するための最初の段階で使用されます。

特徴分類子 ( パソコン) は、その名前が示すように、画像内の特定のシンボルの兆候の存在に基づいています。 このような特徴が合計 N 個ある場合、各仮説は N 次元空間内の点で表すことができます。 したがって、仮説の精度は、仮説から標準 (トレーニング セット上でも開発される) に対応する点までの距離によって評価されます。 特徴の種類と数が認識の品質を大きく決定することは明らかなので、通常は特徴の種類と数がかなり多くなります。 この分類器も比較的高速で単純ですが、さまざまな画像欠陥に対してあまり堅牢ではありません。 さらに、PC は元の画像ではなく、特定のモデル、抽象化で動作します。つまり、一部の情報は考慮されません。たとえば、いくつかの重要な要素が存在するという事実自体は考慮されません。彼らの相対的な位置に関するものなら何でも。 このため、PC は RK の代わりにではなく、RK と併用して使用されます。

輪郭分類器 ( 品質管理)はPCの特殊なケースであり、元の画像から抽出した目的の文字の輪郭を解析する点が異なります。 一般に、その精度は本格的な PC よりも低くなります。

特徴差分分類器 ( MPC) も PC に似ていますが、「m」と「rn」などの類似したオブジェクトを区別するためにのみ使用されます。 したがって、差異が隠れている領域のみを分析し、元の画像だけでなく、認識の初期段階で形成された仮説も入力として受け取ります。 ただし、その動作原理はパソコンとは少し異なります。 トレーニング段階では、2 つのオプションのそれぞれについて考えられる値の 2 つの「雲」(点のグループ) が N 次元空間に形成され、次に、「雲」を互いに分離する超平面が構築されます。それらから等距離にあります。 認識結果は、元の画像に対応する点がどの半空間に該当するかによって異なります。

MPC 自体は仮説を提示するのではなく、既存の仮説を洗練するだけです (そのリストは一般にバブル法を使用して分類されます)。そのため、その有効性の直接的な評価は行われませんが、間接的に、MPC の特性と同等と見なされます。 OCR 認識の最初のレベル全体。 ただし、選択した機能の正確さと標準サンプルの代表性に依存することは明らかであり、これを保証するのはかなり労力のかかる作業です。

構造微分分類器 ( KFOR) はもともと手書きのテキストを処理するために使用されていました。 そのタスクは、「C」と「G」などの類似したオブジェクトを区別することです。 したがって、SDK は文字の各ペアに特徴的な特徴に基づいており、その学習プロセスは MDC よりもさらに複雑で、その動作速度は以前のすべての分類器よりも遅くなります。

構造分類子 ( SK) は ABBYY の誇りの源であり、元々はいわゆる手書きテキスト、つまり人が「印刷された」文字を書いた場合の認識のために開発されましたが、後に印刷にも使用されました。 これは認識の最終段階で使用され、非常にまれに、つまり、十分に高い確率を持つ少なくとも 2 つの仮説が到達した場合にのみ有効になります。

すべての分類子の定性的特性を次の表にまとめます。 ただし、アルゴリズムは絶対的なものではなく、特定のテスト サンプルの処理に基づいて取得されるため、アルゴリズムの有効性を相互に相対的に評価することしかできません。 認識の最終段階では、文字どおり数パーセントの努力で苦労しているように見えるかもしれませんが、実際には、各分類器が認識精度の向上に大きく貢献します。たとえば、SC はエラーの数を顕著に減らします。 20%。

RKパソコン品質管理MPC*KFOR**SK**
最初の 3 つのオプションの精度、%99,29 99,81 99,30 99,87 99,88 -
最初のオプションによる精度 (%)97,57 99,13 95,10 99,26 99,69 99,73

* ABBYY OCR アルゴリズムの最初のレベル全体の評価
** 適切な分類器を追加した後のアルゴリズム全体の評価

しかし、非常に高い精度にもかかわらず、認識アルゴリズム自体が最終的な決定を下さないのは興味深いことです。 MDA 原則に従って、仮説は各論理レベルで提示され、その数は指数関数的に増加する可能性があります。 したがって、すべての仮説を順番にテストすることが効果的である可能性は低いため、ABBYY OCR システムは仮説を構築する方法、つまり仮説を 1 つまたは別のモデルに割り当てる方法を使用します。 後者には数十の種類があり、ここではそのタイプのほんの一部を紹介します: 辞書の単語、辞書に載っていない単語、アラビア数字、ローマ数字、URL、正規表現 - それぞれに多くの特定のモデル (たとえば、既知の言語 (ラテン語、キリル文字など) のいずれかの単語)。

すべての最終アクションは、モデルを使用して構築された仮説に基づいて実行されます。 たとえば、コンテキスト チェックにより文書の言語が特定され、モデルが間違ったアルファベットを使用する可能性が即座に大幅に減少します。また、辞書チェックにより、特定の文字の不確実な認識におけるエラーが補正されます。たとえば、「turn」という単語は、英語辞書 - 「tum」とは異なります(いずれにせよ、人気のあるものではありません)。 辞書の優先順位はどの分類子よりも高くなりますが、必ずしも最後の手段ではなく、一般にさらなるチェックを停止することはありません。第一に、前述したように、辞書に載っていない単語のモデルがあり、第二に、 、辞書の特別な構成により、未知の単語が特定の言語に属するかどうかを高い確率で推測できます。 ただし、辞書チェック (および辞書の完全性) は認識結果に大きな影響を及ぼし、ABBYY 独自のテストではエラーの数がほぼ半分に減少しました。

OCRだけじゃない

デジタル化と自動処理の観点から興味深いのは、印刷された文書だけではありません。 多くの場合、フォーム、つまり手動で比較的正確に入力される、事前定義された固定フィールドを持つドキュメント (いわゆる手書き文字) を使用する必要があります。さまざまなアンケートがその例として役立ちます。 それらの処理技術には別の名前が付いています - ICR(インテリジェントな文字認識) - OCR とは大きく異なります。 したがって、この場合のタスクはドキュメント全体を再作成することではなく、そこから特定のデータを抽出することなので、必要なフィールドを見つけることと、その内容を実際に認識することという 2 つの主要なサブタスクに分かれます。

これはかなり特殊な領域であり、ABBYY はこれに対応する完全に別個のソフトウェア製品 ABBYY FlexiCapture を提供しています。 これは、自動および半自動システムの作成を目的としており、特別なテンプレートが作成される特定の種類のドキュメントのカスタマイズが含まれ、ページ上のさまざまなフィールドをインテリジェントに検索してその中のデータを検証できます。ただし、中心となるのは文字認識です。 FineReader で使用されるアルゴリズムと同様のアルゴリズムであり、一般的なスキームは非常に似ています。

ただし、重要な違いがまだあります。構造分類子はプロセスに必須の参加者です。これは手書きのシンボルの特性によるものです。 さらに、ICR には、文字に取り消し線が引かれているかどうか、認識された文字が実際に日付を形成しているかどうかなど、多数の特定の追加チェックが含まれます。