Conceptos básicos del reconocimiento de imágenes con FineReader. Cómo utilizar el guardado automático de ABBYY FineReader Finereader

Hola. Hoy hablaré sobre cómo utilizar el programa Abbyy FineReader para reconocer texto de una imagen que pueda haber recibido como resultado del escaneo. ¡Su texto escaneado estará completamente en un documento de Microsoft Word y este texto reconocido podrá editarse! Reconocer texto con Abbyy Finereader puede resultar útil para quienes estudian, trabajan con textos y traducciones. Lamentablemente el programa es de pago. Una vez tuve la oportunidad de probar una de las versiones gratuitas de programas similares, pero un texto muy bien escaneado fue reconocido simplemente terriblemente... ¡Y el reconocimiento de texto en Abbyy FineReader resulta ser de muy alta calidad! Ahora te mostraré cómo usar el programa Abbyy FineReader para reconocer rápidamente texto de una imagen.

ABBYY FineReader tiene una versión de prueba por 30 días con la capacidad de reconocer hasta 100 páginas y guardar no más de 3 páginas de un documento. Aquellos. Durante este tiempo, podrá ver las capacidades del programa y tomar una decisión informada: si lo necesita, si vale la pena comprarlo o no.

¡Cómo instalar Abbyy FineReader!

Antes de utilizar Abbyy Finereader es necesario instalarlo. Veamos el proceso de instalación de este programa...

Primero, seleccione el idioma del programa. Haga clic en Aceptar".

Aceptamos los términos del acuerdo de licencia (si lo deseas, puedes leer el acuerdo de licencia si te interesa saber de qué trata). Haga clic en Siguiente".

A continuación, debes seleccionar el modo de instalación. En modo normal, el programa no le preguntará e instalará lo que está especificado en el programa de forma predeterminada, es decir, todos los componentes: el propio programa de reconocimiento de texto Abbyy Finereader, un componente para los programas de Microsoft Office y un componente para el Explorador de Windows (que le permite para reconocer rápidamente imágenes sin abrir un programa por separado). Le aconsejo que verifique la instalación personalizada para configurarla de la manera que necesita. Además, no tardará ni 15 minutos :) A continuación se muestra la carpeta donde se instalará el programa. Es recomendable dejar la selección predeterminada para que no haya problemas luego al utilizar el programa. Haga clic en Siguiente".

Componentes del programa. Esta ventana aparecerá si selecciona el tipo de instalación "Personalizada". Los componentes son algo así como aplicaciones auxiliares de un programa. El primer componente es "Integración con los programas de Microsoft Office y el Explorador de Windows". Este componente se mostrará en el menú de Microsoft Office y si hace clic derecho en la imagen en su computadora, habrá un elemento con este programa. Así es como se verá su menú en Microsoft Office después de agregar este componente.

Esto es lo que sucede si haces clic derecho en la imagen:

Aquellos. Aparecerá un menú en el que podrás realizar un reconocimiento rápido de texto y enviar los resultados a Word, Excel o PDF.

El segundo componente le permitirá reconocer texto desde la pantalla de su computadora. Esto significa que puedes tomar una captura de pantalla y también reconocer el texto. Si no desea instalar uno de estos componentes, o no desea instalar ambos, debe hacer clic en la flecha hacia abajo y seleccionar "Este componente no estará disponible". Entonces el componente no se instalará. Dejé ambos.

Siguientes 4 puntos. El primero significa que la información sobre cómo utiliza el programa Abbyy Finereader se transferirá al desarrollador. Le aconsejo que no marque este elemento para que el programa no vuelva a conectarse para enviar información sobre cómo trabajar con él. Además, nunca se sabe qué otra información se enviará :) El segundo punto crea un acceso directo al programa en el escritorio. El tercero significa que el programa se iniciará cuando se encienda la computadora y el cuarto buscará actualizaciones del programa. Dejo solo el segundo y dejo una marca al lado. Cerramos todas las aplicaciones de Microsoft Office, porque el instalador así lo requiere, y hacemos clic en “Instalar”.

Debe esperar un par de minutos para que se cargue el programa y hacer clic en "Siguiente".

Eso es todo, ¡la instalación está completa! Haga clic en "Finalizar".

¿Cómo puedo utilizar Abbyy Finereader para reconocer texto de una imagen escaneada o de cualquier otro tipo?

Veamos cómo utilizar el programa. Por ejemplo, ha escaneado texto. Ahora, para reconocer texto en Abbyy FineReader, abra el programa. Haga clic en "Abrir".

Seleccione la imagen que necesitamos y haga clic en abrir.

Cuando abra el documento deseado, Abbyy Finereader comenzará a reconocer el texto. Cuanto más grande sea el documento, más tardará el reconocimiento. El reconocimiento de una página puede tardar varios segundos.

Una vez reconocido el texto, todo lo que tienes que hacer es guardar el resultado en un documento de Microsoft Word, para luego poder editar cualquier cosa que contenga. Para hacer esto, haga clic en el botón "Guardar" en la barra de herramientas superior, luego seleccione en qué carpeta se guardará el documento de Word y con qué nombre.

Si tiene un escáner conectado a su computadora, puede comenzar a escanear directamente desde el programa y luego el documento escaneado será reconocido inmediatamente. Para hacer esto, haga clic en el botón "Escanear" en la barra de herramientas superior. Los próximos pasos dependerán del programa del controlador de su impresora. Sólo necesitas seguir las instrucciones del asistente de escaneo.

Como puedes ver, todo es muy sencillo y rápido. ¡Ahora ya sabes cómo utilizar Abbyy FineReader para reconocer texto a partir de imágenes! Espero que esta información ayude a mucha gente :) ¡Buena suerte!

La conversación será sobre el programa ABBYY FineReader 12, es decir, sobre su última versión. Sin ir demasiado lejos, elegimos el producto más famoso de ABBYY, que, por méritos propios, está perfectamente rusificado. A primera vista, Fine Reader (FR) da la impresión de ser un programa con buen soporte para el idioma ruso: en este sentido, todo está hecho a un nivel muy decente, incluida la información general.

Primero: retirada. La cuestión de cómo convertir todo o parte de un archivo a formato digital siempre es relevante (y qué se entiende, de hecho, por la palabra "digital"). Es poco probable que comprar un escáner resuelva todos los problemas. Por supuesto, muy a menudo la documentación del escáner viene con uno o varios discos con software propietario. Sin embargo, ya en la etapa de desinfección resulta que la calidad del programa de escaneo deja mucho que desear o que el formato en el que se guarda, lamentablemente, no es adecuado para el almacenamiento. ¿Por qué? La mayoría de los formatos gráficos no separan el texto del espacio que no es texto del documento y, por lo tanto, no es posible copiar ningún pasaje de dicho archivo.

Es en tales casos cuando acuden al rescate los programas funcionales de reconocimiento de texto, cuyas capacidades, en particular, incluyen la extracción de texto de una imagen.

Conociendo ABBYY FineReader

Bolsa de plastico ABBYY FineReader 12- Sistema de reconocimiento óptico de caracteres (OCR). Diseñado tanto para la entrada automática de documentos impresos en una computadora como para convertir documentos PDF y fotografías a formatos editables. (del manual del programa)

El acrónimo "OCR" se aplica a todas las aplicaciones de reconocimiento de datos (no sólo a texto). La fuente para la extracción de datos puede ser un documento impreso o electrónico. Érase una vez, no hace mucho, pocas personas conocían el OCR, de una forma u otra, y el proceso de convertir texto a formato electrónico se convirtió en una mera rutina, hasta la reimpresión manual del texto original. Hoy en día, disponer de un escáner plano (sólo unos pocos utilizan un escáner manual en casa) y lector fino 12- Tenga la seguridad de que no habrá dificultades en el escaneo y el reconocimiento.

A partir de la sexta versión, FineReader admite la importación y exportación al formato PDF, patentado por Adobe. Probablemente muchos lectores hayan tenido dificultades para traducir de este formato a cualquier otro (doc, etc.), ya que no hay tantos programas realmente útiles en esta área (el único que merece atención es el producto subsidiario de ABBYY, PDF Transformer). El hecho es que dichos programas realizan el reconocimiento de texto solo una vez, por lo que la "identidad" del resultado no es significativa (dependiendo de la complejidad del documento), además el formato del documento se pierde prácticamente.

En el caso de FineReader todo es diferente. La novena versión del programa introduce una tecnología llamada Document OCR. Se basa en el principio de reconocimiento integral de documentos: se analiza y reconoce como un todo, y no página por página. Al mismo tiempo, todo tipo de columnas, encabezados, fuentes, estilos, notas a pie de página e imágenes permanecen intactos o son reemplazados por otros similares al original.

Instalación del paquete

La versión de demostración de Finereader 12 se puede descargar en el sitio web Abbyy.ru; en la sección Descargas, la versión con licencia completa se distribuye en un CD. Puedes informarte sobre las formas de compra en la misma web en el apartado “Comprar”.

En el sitio web de desarrolladores de ABBYY puede descargar una versión demo del paquete ABBYY FineReader versión 12 (u otra que esté vigente hoy en día)

ABBYY FineReader se distribuye en varias versiones: Professional Edition, Corporate Edition, Site License Edition, etc. La diferencia entre la versión Professional y las demás es que está diseñada para funcionar en una red corporativa con la capacidad de colaborar en el reconocimiento de documentos. De lo contrario, la diferencia es insignificante y depende de la elección de los términos del acuerdo de licencia.

Es difícil imaginar que hace 12 años existía FineReader 2.0, que ocupaba unos 10 MB de espacio en disco. Con el tiempo, el paquete se ha multiplicado por diez y ahora, cuando se instala, ocupa hasta 300 MB. ¿Es mucho o poco? Juzgue usted mismo. El nuevo FR admite 179 lenguajes de reconocimiento, incluidos lenguajes artificiales poco conocidos (ido, interlingua, occidental y esperanto), lenguajes de programación, fórmulas, etc. No nos olvidemos de la compatibilidad con varios formatos y scripts. Entonces, si por alguna razón desea limitar el espacio que ocupa un paquete, durante la instalación, seleccione solo aquellos componentes que serán necesarios durante la operación.

La elección de los componentes influye en la duración de la instalación, que, sin embargo, no debería llevar mucho tiempo. Durante el proceso de instalación, se le presentarán las características principales de FR. Después de la activación (a través de Internet, por correo electrónico, utilizando el código recibido, etc.), el programa está listo para funcionar completamente. En el modo de demostración, seguramente encontrará varias restricciones que, desafortunadamente, no le permitirán utilizar el paquete por completo.

Interfaz FineReader. Funcionalidad

El acceso a las capacidades del programa está disponible tanto a través de scripts que aparecerán en el menú principal inmediatamente después del proceso de instalación como, de hecho, a través de la interfaz principal.

Salvapantallas al iniciar FineReader

La apariencia del programa no sufre cambios significativos de una versión a otra: los desarrolladores no ven el sentido de cambiarlo radicalmente. Se presta mucha atención a la ergonomía, algo que se nota en todos los productos ABBYY (Lingvo, PDF Transformer, FlexiCapture...). En otras palabras, la interfaz de Fine Reader 12 está bien pensada y es adecuada para todos los usuarios, incluidos los principiantes. El principio de "Obtener resultados con un solo clic" atraerá a aquellos que no están acostumbrados a configurar y cambiar algo. Por otro lado, los usuarios más experimentados pueden configurar FineReader cuidadosamente a través del cuadro de diálogo de configuración (Herramientas -> Opciones…). La única advertencia: para trabajar cómodamente en la aplicación, es recomendable configurar la resolución de la pantalla en 1280×800, para que todas las herramientas estén siempre, como dicen, a mano.

Después de iniciar el programa Fine Reader, aparecerá una ventana con botones para acceder rápidamente a las funciones del programa. Este menú también está disponible a través del menú Herramientas -> ABBYY FineReader, el botón "Scripts principales" en el extremo derecho del programa o mediante la combinación de teclas Ctrl+N (similar a Word, donde esta combinación abre un nuevo documento). .

Escanear a Microsoft Word: en la novena versión de FineReader, apareció soporte para el que aún no se ha vuelto popular Microsoft Word 2007. A su vez, aparece un icono rojo "de marca" en la barra de herramientas de las aplicaciones de Microsoft Office, en la sección de complementos después de instalar FR.

Menú para exportar un documento reconocido de FineReader

Seleccionar idiomas para escanear y reconocer documentos

Además de Microsoft Office, FR admite la integración con Microsoft Outlook y exporta resultados de reconocimiento a Microsoft Word, Excel, Lotus Word Pro, Corel WordPerect y Adobe Acrobat. Estas características hacen que trabajar con el programa sea algo más fácil y rápido, especialmente si tienes que trabajar con él regularmente.

PDF o imágenes en Microsoft Word: reconocer datos de un PDF u otro tipo de archivo gráfico compatible con Finereader versión 12. Cabe señalar que la tecnología para extraer texto de un archivo PDF en FR no consiste simplemente en "despegar" el contenido del texto (la capa de texto en PDF puede estar ausente) del gráfico. De hecho, la tecnología de reconocimiento es bastante complicada: después de analizar el contenido del documento, el programa decide qué y cómo hacer con el texto: simplemente extraerlo o reconocerlo, y así sucesivamente para cada fragmento de texto.

Escanear a Microsoft Excel: El escaneo a XLS (formato de Microsoft Excel) puede estar justificado si la imagen escaneada contiene tablas.

Escanear a PDF: Hay muchas razones para escanear a PDF. Uno de ellos es la seguridad: este es el único formato familiar para FR en cuya configuración se puede establecer un bloqueo con contraseña. La contraseña se establece no solo para abrir un documento, sino también para imprimirlo y otras operaciones. Es posible elegir uno de tres niveles de cifrado: 40 bits, 128 bits según el estándar RC4, nivel de 128 bits según el estándar AES (Advanced Encryption Standard).

Convertir foto a Microsoft Word: convertir un archivo de un formato gráfico (y puede ser PDF o una imagen de varias páginas) a DOC / DOCX.

Abrir en Fine Reader: abra un archivo gráfico (PDF, BMP, PCX, DCX, JPEG, JPEG 2000, TIFF, PNG) para el reconocimiento de FineReader.

Trabajando en FineReader

Ahora, brevemente sobre las características del programa. Todo el proceso se divide en escanear, reconocer y guardar los resultados. Después de haber elegido el tipo de acción del programa, especificado el archivo o dispositivo a escanear, FineReader lleva a cabo su tarea paso a paso, lo que, por cierto, consume bastantes recursos para el procesador central.

Si es el afortunado propietario de un procesador de doble núcleo, al trabajar en el paquete Fine Reader 12 podrá apreciar la potencia del rendimiento de su computadora. El caso es que FR, al detectar un procesador de doble núcleo, reconoce no una, sino dos páginas de un documento en paralelo. Es una cosa pequeña, pero es bonita.

Primero viene el escaneo, luego el reconocimiento y la exportación de un documento temporal al formato seleccionado.

Proceso de reconocimiento de documentos PDF

Exploración. No es necesario realizar ninguna configuración preliminar en la aplicación FineReader (excepto seleccionar un dispositivo de lectura) antes de escanear. Por eso se inventaron los scripts: están diseñados para simplificar la ejecución de acciones similares.

Reconocimiento. La simplificación también afectó a otras pequeñas cosas. Así, si recordamos versiones anteriores del programa, antes teníamos que cambiar manualmente el idioma (idiomas, si eran varios) del documento. Ahora bien, esto sucede automáticamente, aunque no siempre. En este último caso, FR sugiere discretamente comprobar el idioma del documento.

Volviendo a la tecnología de reconocimiento FR: ¿por qué el programa escanea primero todo el documento y no página por página? Como ya se mencionó, el texto se reconoce en función de todo el contenido: se seleccionan fuentes de tamaño/tipo de letra similar, tablas y bordes, sangrías, etc.

No se sorprenda si FineReader 12 muestra un mensaje que dice que no se puede reconocer la página porque no se encontraron áreas de texto. Para el experimento, fotografiamos un área de un documento de texto usando un teléfono móvil desde la pantalla LCD (sin embargo, ya conocíamos el resultado de antemano). Fine Reader 12 no reconoció el texto de la imagen, ya que su calidad claramente no era suficiente para ello. En la segunda visita, tomamos una fotografía de una página con texto en iluminación normal con una cámara digital.

FineReader reconoció el pasaje sin problemas, conservando el formato y resaltando con marcadores algunos momentos cuestionables o caracteres que pueden tener una ortografía variable.

Como puede ver en la imagen, se trata principalmente de puntos, guiones, comas y, en general, caracteres pequeños. Además, se ve claramente que el programa tuvo en cuenta los desniveles y curvaturas de la página fotografiada y alineó las líneas de texto. Conclusión: FR hizo un trabajo excelente en su tarea, aunque no muy difícil.

En ocasiones, algunos problemas menores pueden pasar desapercibidos para el programa Fine Reader, pero se pueden corregir fácilmente de forma manual. Afortunadamente, el paquete tiene su propio editor WYSIWYG, cuyas capacidades son suficientes para realizar la edición final del documento. La revisión ortográfica también está disponible.

¿Cómo podemos mejorar la precisión del reconocimiento para poder dedicar menos tiempo a editar texto? Primero, puede conectar un diccionario personalizado de Microsoft Word. Es cierto que es difícil juzgar el aumento en la precisión, excepto quizás el aumento en el vocabulario del corrector ortográfico (un módulo que revisa la ortografía y la gramática). Entre otras cosas, para mejorar el reconocimiento, tiene sentido familiarizarse con la configuración del programa (Herramientas -> Opciones) y seleccionar uno de dos modos:

reconocimiento cuidadoso- se puede seleccionar al reconocer documentos de cualquier “complejidad”: con tablas sin líneas de cuadrícula, texto, gráficos, tablas con fondo de color, etc. También puede ayudar con fuentes de reconocimiento de baja calidad

reconocimiento rápido- este modo se recomienda para procesar grandes volúmenes de documentos con un diseño simple o en casos donde el tiempo no permite un reconocimiento completo. En la mayoría de los casos, cuando tiene texto impreso en negro sobre un fondo blanco, puede conformarse con un reconocimiento rápido.

En general, mejorar la calidad del trabajo de FineReader es un tema de conversación aparte, cuyos detalles puede conocer en la ayuda oficial, concretamente en la sección "Cómo mejorar los resultados obtenidos".

Guardando el documento. La última etapa del trabajo en el programa Fine Reader 12 es guardar el resultado final en un formato gráfico/texto específico. La configuración de guardado previo se puede especificar en las opciones de FR: Herramientas -> Opciones, pestaña "Guardar". Cada formato tiene su propia configuración. Al guardar en formato DOCX, debe tener cuidado con la compatibilidad del formato (los archivos DOCX no se reconocen en Word 2003<). В txt-файлах не забудьте проверить правильность кодировки (особенно в случае с текстом в кириллице).

Lector de capturas de pantalla ABBYY

En muchos paquetes grandes, a los desarrolladores les suele gustar agregar pequeñas utilidades de servicio. Digamos que la conocida aplicación de grabación de discos Nero incluye un conjunto de 3 a 5 utilidades que le permiten hacer algo que ni siquiera el propio Nero puede hacer. Revisión (también puede descargarla aquí como parte de Fine Reader 12).

En cuanto a FineReader, contiene una pequeña aplicación, Screenshot Reader. Con él, puedes tomar una captura de pantalla y convertirla rápidamente al formato deseado usando FR. El programa está disponible a través del menú Inicio (Inicio -> Todos los programas -> ABBYY FineReader 12.0 -> ABBYY Screenshot Reader).

Las capacidades de Screenshot Reader son algo más amplias de lo que parece a primera vista. (de lo contrario, podrías hacerlo simplemente presionando la tecla “ImprimirPantalla” en tu teclado). Además de tomar una captura de pantalla de la pantalla (o más exactamente, de un área seleccionada de la pantalla), Screenshot Reader está estrechamente integrado con FR.

Cuando hace clic en el botón "Instantánea" en el panel Lector de capturas de pantalla, el cursor cambia de forma y se activa la herramienta de selección del área de la pantalla. El área seleccionada de la imagen se enmarca para un mayor reconocimiento del texto (se ejecuta automáticamente).

En la lista desplegable, puede seleccionar la acción deseada: de hecho, Screenshot Reader duplica los scripts FR rápidos con la diferencia de que, en lugar de una captura de pantalla del escáner, se recibe una captura de pantalla como entrada.

Cabe señalar que el programa, junto con el paquete completo, requiere activación. Al registrar el producto, ABBYY FineReader 12 Professional Edition Screenshot Reader se proporciona de forma gratuita como “extra”.

Conclusión

FineReader es un programa indispensable para escanear y reconocer datos gráficos. La interfaz en ruso y la accesibilidad de la configuración no ahuyentarán a un usuario inexperto. La compatibilidad con los últimos formatos, las tecnologías innovadoras y, como resultado, el reconocimiento de alta calidad hacen del programa la mejor opción, especialmente porque ABBYY FineReader todavía no tiene competidores en esta área.

FineReader 12 teclas de acceso rápido

Cree un nuevo documento de ABBYY FineReader- CTRL +N
Abrir el documento de ABBYY FineReader 12 - CTRL +MAYÚS+N
guardar paginas-CTRL+S
Guardar imagen en archivo-CTRL+ALT+S
Reconocer todas las páginas de un documento.- CTRL + MAYÚS + R
Cerrar la página actual-CTRL+F4
Reconocer páginas seleccionadas de un documento de ABBYY FineReader-CTRL+R
Abrir administrador de escenarios-CTRL+T
Abra el cuadro de diálogo Opciones de lector fino- CTRL + MAYÚS + O
Abrir ayuda- F1
Ir a la ventana del documento-ALT +1
Ir a la ventana de Imagen-ALT +2
Ir a la ventana de texto-ALT+3
Ir a la ventana Primer plano-ALT+4

Entonces, tenemos FineReader instalado en nuestra computadora. Encendemos el escáner y digitalizamos algún documento de varias páginas. Llamémoslo, condicionalmente, "Acuerdo".

Coloque la primera página del documento en el cristal del escáner y cierre la tapa. Inicie el programa FineReader. Haga clic en el botón "Escanear" o presione la combinación "Ctrl+K". Se abre la ventana "Escaneo de ABBYY FineReader". Al digitalizar una página de texto normal escrita en fuente de 11 a 12 puntos, deje la configuración predeterminada en la ventana y haga clic en el botón "Ver".

El escáner funciona y después de unos segundos vemos nuestra página en la ventana de visualización. Aquí podemos cambiar el tamaño del escaneo si es necesario. Y luego haga clic en el botón "Escanear".

FineReader comienza el proceso de reconocimiento de texto y en un minuto se abre la imagen de la página en la ventana del programa. El lado derecho de la ventana ahora está dividido en tres secciones. En la sección izquierda "Imagen" podemos editar la imagen. Puedes leer más sobre la edición de imágenes en la lección: Escanear un libro. En la sección derecha "Texto" puede realizar cambios inmediatamente en el texto: edite el contenido de la página incluso antes de guardarla. Esto es muy conveniente cuando necesita, por ejemplo, cambiar rápidamente fechas, detalles y apellidos en un documento.

Aparece un icono de la página reconocida en la parte izquierda de la ventana “Páginas”:

Si no necesita editar nada, reemplace la primera página en el cristal del escáner con la segunda página y repita la tecnología. Después de haber ajustado los tamaños de escaneo una vez en la ventana "ABBYY FineReader Scanning" en el modo "Vista previa" para la primera página, ahora haga clic inmediatamente en el botón "Escanear". La configuración de la primera página se guarda y las páginas siguientes se escanean sin vista previa. Entonces escaneamos todas las páginas de nuestro documento.

Hemos terminado y ahora, pulsando uno a uno en los iconos, abrimos las páginas comprobando su correcta secuencia.

Luego de eso, en la parte izquierda de la ventana “Páginas”, selecciona todos los íconos con el botón: “Editar – Seleccionar todo” o con el atajo de teclado: “Ctrl + A”. Luego, en la lista desplegable al lado del botón “Guardar”, seleccione el comando: “Guardar como documento PDF”:

Ahora haga clic en el botón y guarde el documento con el nombre "Acuerdo.pdf" en la carpeta "Acuerdo":

Como resultado, obtenemos un documento de texto de varias páginas en formato pdf, una versión electrónica de nuestro documento con el nombre en clave "Acuerdo".

Entonces, digitalizamos documentos de texto usando FineReader.

Al cambiar el modo de escaneo a "color" en la ventana "Escaneo de ABBYY FineReader", también podemos digitalizar fácilmente imágenes y fotografías en color.

Y configurando en el menú contextual, por ejemplo, el comando: “Guardar como documento de Microsoft Word 2007”, transformaremos nuestro proyecto en un único documento de Word editable de varias páginas.

En general, el programa es fácil de entender, intuitivo y tiene sugerencias emergentes en todas partes.

En esta ocasión te contaré cómo convertir documentos en papel a formato PDF electrónico, así como cómo transferir un documento en papel a una computadora para cambiar el texto. Vamos a empezar.
Tengo un documento en papel en mis manos.

ESCANEAR a PDF

Tarea: transferir este documento a la computadora (traducirlo a formato electrónico). Además, debe hacerse exactamente de esta forma para que no se pueda cambiar en el futuro (en términos generales, es necesario tomar una foto del documento). Luego este documento electrónico deberá ser enviado por correo postal a una dirección de correo electrónico. Además el cliente lo solicita en formato pdf.

Por etapas:
1) Paso el documento por el escáner
2) Guardo la impresión resultante en formato pdf en mi computadora
3) Envío el archivo recibido por correo
En mi trabajo utilizo 2 programas para solucionar este problema:
Foxit Phantom o ABBYY FineReader. Para mayor claridad, adjunto capturas de pantalla:
En Foxit Phantom, cuando el escáner está encendido, debe seleccionar ARCHIVO-CREAR PDF DESDE EL ESCÁNER en el menú principal...
Se realizará el escaneo y se le pedirá que guarde el archivo. Seleccione una ubicación, escriba el nombre del archivo y guárdelo.

ABBYY FineReader tiene botones enormes en la barra de herramientas. Uno de ellos se llama SCAN a PDF. Lo usamos.

Si necesita escanear un documento de varias páginas, entonces, por etapas:
1) Presione el botón número 1 SCAN

Recibimos un documento escaneado.

También escaneamos otra página (presionamos nuevamente el botón número 1 SCAN).
2) Guardar como PDF

Como resultado, obtenemos un documento terminado de varias páginas en forma de archivo PDF.

Ahora este archivo se puede enviar por correo electrónico.

RECONOCIMIENTO DE TEXTO

Tarea: convertir un documento en papel a formato electrónico (a una computadora)

Por etapas:
1) Escanear (botón 1 ESCANEAR)

2) Reconocimiento (botón 2 RECONOCER TODOS)

El reconocimiento debe entenderse como el proceso de traducir una fotografía (imagen) en texto (letras, números, signos). Si fotografió una página de texto, luego de reconocer el 99% del texto en papel, se convertirá en texto electrónico. El texto electrónico ya se puede cambiar (editar) en una computadora de la forma que desee.

3) Guardar en un editor de texto (botón 4 Guardar)
Le aconsejo que seleccione TRANSFERIR TODAS LAS PÁGINAS A MICROSOFT WORD

Obtenemos

Me gustaría señalar puntos importantes durante el procedimiento de RECONOCIMIENTO. Hay matices a la hora de trabajar.
Inmediatamente después del reconocimiento, le aconsejo que mire el resultado. Especialmente en los bloques que crea el programa FineReader.

Estas son áreas resaltadas en marcos rectangulares. Estos marcos son de diferentes colores. Si es rojo, entonces este bloque se reconoce como una IMAGEN. Si es negro, entonces TEXTO. Los bloques vienen en diferentes tipos. El tipo de bloque se puede encontrar haciendo clic en el bloque con el botón DERECHO del mouse y seleccionando CAMBIAR TIPO DE BLOQUE.

Un pequeño truco: puedes seleccionar un área arbitraria y etiquetarla con cualquier tipo de bloque. Por ejemplo, seleccionemos esa parte del texto que no se reconoce bien usando el botón izquierdo del mouse (haga clic, mantenga presionado y arrastre, el marco cambia de tamaño).

Como resultado, el documento en Word tendrá un bloque de texto y un bloque de imágenes. La imagen del bloque tendrá una apariencia absolutamente sin cambios. Utilizo este método cuando guardo sellos, fuentes no estándar, imágenes y fotografías.

PD: El conocimiento y la capacidad para trabajar con PDF, escanear y reconocer documentos a menudo ayudan en el trabajo de oficina. ¡El conocimiento te ahorra tiempo!

Aunque los avances realizados en inteligencia artificial (IA) durante los últimos 50 años no han acercado ni un ápice a las máquinas inteligentes a las capacidades cognitivas humanas, sería injusto negar por completo los avances en esta dirección. El ejemplo más obvio y sorprendente es el ajedrez (sin mencionar los juegos más simples). Una computadora aún no puede imitar nuestro pensamiento, pero es bastante capaz de compensar esta brecha con una gran cantidad de memoria especializada y velocidad de búsqueda. Vladimir Kramnik describió el juego del programa Deep Fritz que lo derrotó en 2006 como “inhumano” en el sentido de que a menudo contradecía las reglas (humanas) establecidas de estrategia y táctica.

Y hace poco más de un año, otra creación de IBM, que en un momento sentó las bases para las victorias triunfales en el ajedrez de las computadoras (el famoso Deep Blue), llamada Watson, logró un nuevo avance al derrotar a dos campeones del popular concurso estadounidense Jeopardy. por un amplio margen. Es significativo, sin embargo, que aunque Watson expresó las respuestas de forma independiente, las preguntas le fueron transmitidas en forma de texto. Esto sugiere que los éxitos en muchas áreas de la aplicación de la IA (reconocimiento de voz e imágenes, traducción automática) son bastante modestos, aunque esto no nos impide utilizarlos en la práctica hoy en día. Quizás los mayores éxitos los demuestren los sistemas de reconocimiento óptico de caracteres (OCR, Optical Character Recognition), con los que casi todos los usuarios de PC probablemente estén familiarizados de una forma u otra. Además, los avances rusos en este ámbito ocupan un lugar digno en el mundo: me refiero a ABBYY FineReader.

Una pequeña historia

La versión actual de ABBYY FineReader es la número 11, es decir, la aplicación ha recorrido un largo camino de desarrollo, e incluso la historia de este proceso es de cierto interés. Sin pretender ser una crónica exhaustiva, sólo daré los principales hitos de la última década, durante la cual seguí más o menos FineReader:

Año	Versión	Principales características
2003	7.0	Aumento de la precisión del reconocimiento hasta un 25%. Esto se reflejaba sobre todo en las tablas, especialmente las complejas, con celdas de colores, divisores ocultos, etc.
2005	8.0	Mayor optimización de los algoritmos de reconocimiento, cuyo objetivo principal es trabajar no con documentos escaneados, sino con fotografías digitales. Para ello, han aparecido funciones adicionales para la preparación de originales (eliminar distorsiones, alinear líneas, etc.).
2007	9.0	La aparición de la tecnología ADRT, que tiene en cuenta la estructura lógica de todo el documento procesado (varias páginas) y es capaz de resaltar elementos repetidos (encabezados y pies de página), conectar objetos "fluidos" (tablas), etc.
2009	10.0	Mejora adicional de ADRT y algoritmos de reconocimiento, aumentando la precisión del procesamiento de originales de baja resolución hasta en un 30%.
2011	11.0	Se presta mayor atención a la velocidad del programa. “Second Coming” del modo blanco y negro, que en originales de buena calidad da una aceleración adicional de hasta un 30%.

Naturalmente, al mismo tiempo, FineReader amplió el soporte para formatos de documentos, mejoró las herramientas y la interfaz integradas, mejoró la reconstrucción de la estructura de los originales, etc. Sin embargo, los puntos resaltados están directamente relacionados con las tecnologías OCR y demuestran bien el espasmódico proceso de desarrollo. característico de sistemas complejos intensivos en conocimiento cuando después del siguiente "avance" sigue un cierto período de "tranquilidad", necesario para mejorar nuevos algoritmos. Representan el valor principal de cualquier programa OCR y, por lo tanto, la información detallada sobre ellos rara vez llega a los usuarios. Sin embargo, ABBYY tuvo la amabilidad de levantar el velo del secreto y hoy tenemos la oportunidad de echar un vistazo al lugar santísimo de FineReader.

Principios básicos

Entonces, dado que el OCR pertenece al campo de la IA, es lógico que los desarrolladores se esfuercen por imitar, al menos hasta cierto punto, la actividad de nuestro cerebro. Por supuesto, la estructura de nuestro sistema visual es increíblemente compleja, pero los principios básicos de su funcionamiento en "bloques grandes" han sido suficientemente estudiados; por lo general, hay tres de ellos:

Integridad- un objeto se considera como una colección de sus partes y (para imágenes visuales) las relaciones espaciales entre ellas. A su vez, las partes reciben interpretación sólo como parte del objeto total. Este principio ayuda a construir y aclarar hipótesis, eliminando rápidamente las improbables.
Decisión- Dado que cualquier interpretación de datos persigue un objetivo específico, el reconocimiento es un proceso de plantear hipótesis sobre un objeto y probarlas intencionadamente. Un sistema que funcione de acuerdo con este principio no sólo utilizará la potencia informática de forma más económica, sino que también cometerá menos errores.
Adaptabilidad- el sistema guarda la información acumulada durante el funcionamiento y la reutiliza, es decir, la aprende por sí mismo. Este principio permite crear y acumular nuevos conocimientos y evitar resolver repetidamente los mismos problemas.

FineReader es el único sistema OCR del mundo que funciona de acuerdo con los principios descritos anteriormente en todas las etapas del procesamiento de documentos. La tecnología correspondiente se llama API- según las primeras letras de los términos en inglés. Por ejemplo, según el principio de integridad, un fragmento de una imagen se interpretará como un símbolo sólo si contiene todas las partes estructurales de objetos similares y aquellas que se encuentran en determinadas relaciones. Esto ayuda a sustituir la búsqueda de una gran cantidad de estándares (en busca de uno más o menos adecuado) por una prueba específica de un número razonable de hipótesis, basándose en información previamente acumulada sobre las posibles líneas de un personaje en un documento reconocido. .

Sin embargo, los principios de IPA se aplican al analizar no sólo fragmentos correspondientes a (presumiblemente) caracteres individuales, sino también la imagen fuente completa de la página. La mayoría de los sistemas OCR se basan en reconocer la estructura jerárquica de un documento, es decir, la página se divide en elementos estructurales básicos como tablas, imágenes, bloques de texto, que, a su vez, se dividen en otros objetos característicos (celdas, párrafos) y y así sucesivamente, hasta llegar a los personajes individuales.

Un análisis de este tipo puede realizarse de dos formas principales: de arriba hacia abajo, es decir, desde los elementos constitutivos hasta los personajes individuales, o, por el contrario, de abajo hacia arriba. Uno de ellos es el más utilizado, pero ABBYY ha desarrollado un algoritmo especial MDA(análisis de documentos multinivel), que combina ambos. En resumen, se ve así: la estructura de la página se analiza de arriba hacia abajo y la reconstrucción del documento electrónico una vez completado el reconocimiento se realiza de abajo hacia arriba, pero en todos los niveles existe un mecanismo de retroalimentación adicional. Como resultado, se reduce drásticamente la probabilidad de errores graves asociados con el reconocimiento incorrecto de objetos de alto nivel.

ADRT

Históricamente, los sistemas OCR han evolucionado a partir del reconocimiento de caracteres individuales. Esta tarea sigue siendo la más importante y difícil; a ella están asociados los algoritmos más complejos. Sin embargo, pronto quedó claro que la información de nivel superior (por ejemplo, sobre el idioma del documento y la ortografía correcta de las palabras reconocidas) podría ayudar a resolver este problema; así es como aparecieron las verificaciones contextuales y de diccionario. Luego, el deseo de preservar el formato y recrear la estructura física (es decir, las posiciones relativas de varios objetos) de un documento llevó a la necesidad de un análisis detallado de una página completa. Está claro que esto también afecta significativamente la calidad general del reconocimiento, ya que ayuda a procesar correctamente el diseño de varias columnas, tablas y otros métodos de disposición de texto "no lineal".

La mayoría de los OCR modernos operan precisamente en estos tres niveles (caracteres, palabras, páginas) practicando, como ya se mencionó, enfoques de arriba hacia abajo o de abajo hacia arriba. Sin embargo, ABBYY, de acuerdo con los principios de IPA, introdujo otro nivel en FineReader: el documento completo de varias páginas. En primer lugar, era necesario reproducir correctamente la estructura lógica, que en los documentos modernos se vuelve cada vez más compleja. Pero hay ventajas adicionales: mayor precisión y procesamiento más rápido de objetos repetidos, identificación (y por lo tanto reconocimiento) más correcta de los objetos que "fluyen" de una página a otra.

Esta es exactamente la razón por la que fue desarrollado. ADRT(Tecnología adaptativa de reconocimiento de documentos): tecnología para el análisis y síntesis de documentos a nivel lógico. En última instancia, ayuda a que el resultado de FineReader funcione lo más similar posible al original. Para ello, se analiza la imagen de todo el documento y las palabras reconocidas se combinan en grupos (clusters) según el estilo, entorno y ubicación en la página. De esta forma, el programa parece ver la “lógica” del marcado del documento y posteriormente puede unificar el diseño del resultado.

Gracias a ADRT, FineReader, a partir de la versión 9.0, ha aprendido a detectar, reconocer y reproducir las siguientes partes estructurales y elementos de formato de documentos:

texto principal;
encabezados y pies de pagina;
número de páginas;
encabezados del mismo nivel;
Tabla de contenido;
inserciones de texto;
pies de foto para dibujos;
mesas;
notas a pie de página;
zonas de firma/sello;
fuentes y estilos.

Proceso de reconocimiento

De acuerdo con el algoritmo MDA, el reconocimiento real comienza de arriba a abajo, desde el nivel de la página. Está claro que cuantas más decisiones equivocadas se tomen en las primeras etapas de este proceso, más las habrá en las siguientes. Por eso la precisión del reconocimiento depende tanto de la calidad de los originales, pero sus algoritmos de preprocesamiento también pueden tener un impacto significativo. Así, a medida que crecía la popularidad de los documentos en color en FineReader, apareció un procedimiento de binarización adaptativa. AB). Si escanea un documento inmediatamente en modo blanco y negro, donde hay marcas de agua o el texto está ubicado sobre un sustrato texturizado o de color, invariablemente aparecerá "basura" en la imagen, que luego será bastante difícil de separar de la " útil” (ya que la información original sobre él ya se ha perdido). Es por eso que FineReader prefiere trabajar con imágenes en color o en escala de grises, convirtiéndolas usted mismo en blanco y negro (este proceso se llama binarización). Pero eso no es todo. Dado que los colores del texto y del fondo pueden variar dentro de la página e incluso dentro de líneas individuales, AB identifica palabras con más o menos las mismas características y selecciona los parámetros de binarización óptimos para cada una desde el punto de vista de la calidad del reconocimiento. Ésta es precisamente la adaptabilidad del algoritmo, que por tanto es un ejemplo del uso de retroalimentación en MDA. Está claro que la eficacia de AB depende en gran medida del diseño de los documentos originales: según la base de pruebas de ABBYY, este algoritmo proporcionó un aumento en la precisión del reconocimiento en un 14,5%.

Pero lo más interesante, por supuesto, comienza cuando el proceso de reconocimiento desciende a los niveles más bajos. El llamado procedimiento de división lineal divide las líneas en palabras y las palabras en letras individuales; luego, de acuerdo con el principio IPA, genera un conjunto de hipótesis (es decir, posibles opciones sobre qué tipo de símbolo es, en qué símbolos se divide la palabra, etc.) y, proporcionando a cada uno una estimación de probabilidad, la pasa. a la entrada del mecanismo de reconocimiento de caracteres. Este último consiste en una serie de los llamados clasificadores, cada una de las cuales también genera una serie de hipótesis clasificadas según su grado de probabilidad esperado. La característica más importante de cualquier clasificador es la posición promedio de la hipótesis correcta. Está claro que cuanto más alto sea, menos trabajo habrá para los algoritmos posteriores, por ejemplo, la comprobación del diccionario. Pero los clasificadores suficientemente bien establecidos suelen evaluar características como la precisión del reconocimiento basándose en las tres primeras hipótesis o sólo en la primera, es decir, en términos generales, la capacidad de adivinar la respuesta correcta en tres o un intento. ABBYY utiliza los siguientes tipos de clasificadores en sus sistemas: ráster, característica, diferencial de características, contorno, estructural y diferencial estructural, que se agrupan en dos niveles lógicos.

Principio de operación RK, o clasificador ráster, se basa en una comparación píxel por píxel de la imagen de un personaje con estándares. Estos últimos se forman como resultado de promediar imágenes del conjunto de entrenamiento y reducirlas a una determinada forma estándar; En consecuencia, el tamaño, el grosor de los elementos y la pendiente también están prenormalizados para la imagen reconocida. Este clasificador se caracteriza por su facilidad de implementación, velocidad de funcionamiento y resistencia a los defectos de la imagen, pero proporciona una precisión relativamente baja y es por eso que se utiliza en la primera etapa: para generar rápidamente una lista de hipótesis.

Clasificador de características ( ordenador personal), como su nombre indica, se basa en la presencia de signos de un símbolo concreto en la imagen. Si hay N características de este tipo en total, entonces cada hipótesis puede representarse mediante un punto en el espacio N-dimensional; en consecuencia, la precisión de la hipótesis se evaluará por la distancia desde ésta hasta el punto correspondiente al estándar (que también se desarrolla en el conjunto de entrenamiento). Está claro que los tipos y la cantidad de funciones determinan en gran medida la calidad del reconocimiento, por lo que suele haber bastantes. Este clasificador también es relativamente rápido y simple, pero no es muy resistente a varios defectos de imagen. Además, la PC no funciona con la imagen original, sino con un determinado modelo, una abstracción, es decir, no tiene en cuenta parte de la información: digamos, el hecho mismo de la presencia de algunos elementos importantes no lo dice. nada sobre su posición relativa. Por este motivo, el PC no se utiliza en lugar del RK, sino junto con él.

Clasificador de contorno ( control de calidad) es un caso especial de PC y se diferencia en que analiza los contornos del personaje deseado extraído de la imagen original. En general, su precisión es menor que la de una PC completa.

Clasificador diferencial de características ( MPC) también es similar a PC, pero se usa únicamente para distinguir entre objetos similares como "m" y "rn". En consecuencia, analiza sólo aquellas áreas donde las diferencias están ocultas y recibe como entrada no sólo las imágenes originales, sino también las hipótesis formadas en las primeras etapas del reconocimiento. El principio de funcionamiento, sin embargo, es algo diferente al de un PC. En la etapa de entrenamiento se forman dos “nubes” (grupos de puntos) de posibles valores para cada una de las dos opciones en un espacio N-dimensional, luego se construye un hiperplano que separa las “nubes” entre sí y es aproximadamente equidistante de ellos. El resultado del reconocimiento depende de en qué semiespacio se encuentre el punto correspondiente a la imagen original.

El propio MPC no plantea hipótesis, sino que simplemente perfecciona las existentes (cuya lista generalmente se ordena mediante el método de la burbuja), de modo que no se realiza una evaluación directa de su eficacia, sino que indirectamente se la equipara con las características del primer nivel completo de reconocimiento OCR. Sin embargo, está claro que depende de la exactitud de las características seleccionadas y de la representatividad de la muestra de normas, lo que supone una tarea bastante laboriosa.

Clasificador diferencial estructural ( KFOR) se utilizó originalmente para procesar textos escritos a mano. Su tarea es distinguir entre objetos similares como "C" y "G". Así, SDK se basa en rasgos característicos de cada par de caracteres, su proceso de aprendizaje es incluso más complejo que el de MDC y su velocidad de funcionamiento es menor que la de todos los clasificadores anteriores.

Clasificador estructural ( SK) es un motivo de orgullo para ABBYY; originalmente fue desarrollado para reconocer el llamado texto escrito a mano, es decir, cuando una persona escribe en letras "impresas", pero luego se usó para imprimir. Se utiliza en las etapas finales del reconocimiento y entra en vigor muy raramente, es decir, sólo cuando al menos dos hipótesis con probabilidades suficientemente altas lo alcanzan.

Las características cualitativas de todos los clasificadores se recogen en la siguiente tabla. Sin embargo, sólo permiten evaluar la eficacia de los algoritmos entre sí, ya que no son absolutos, sino que se obtienen a partir del procesamiento de una muestra de prueba específica. Puede parecer que en las últimas etapas del reconocimiento la lucha es literalmente por una fracción de un porcentaje, pero de hecho, cada clasificador hace una contribución significativa al aumento de la precisión del reconocimiento; por ejemplo, el SC reduce el número de errores en un notable 20%.

	RK	ordenador personal	control de calidad	MPC*	KFOR**	SK**
Precisión para las tres primeras opciones, %	99,29	99,81	99,30	99,87	99,88	-
Precisión según la primera opción, %	97,57	99,13	95,10	99,26	99,69	99,73

* evaluación de todo el primer nivel del algoritmo ABBYY OCR
** evaluación de todo el algoritmo después de agregar el clasificador apropiado

Es curioso, sin embargo, que a pesar de la precisión bastante alta, el algoritmo de reconocimiento por sí solo no tome la decisión final. De acuerdo con el principio MDA, las hipótesis se plantean en cada nivel lógico y su número puede crecer exponencialmente. En consecuencia, es poco probable que las pruebas secuenciales de todas las hipótesis sean efectivas y, por lo tanto, los sistemas ABBYY OCR utilizan el método de estructurar hipótesis, es decir, asignarlas a uno u otro modelo. Hay un par de docenas de estos últimos, aquí se muestran solo algunos de sus tipos: palabra de diccionario, palabra que no está en el diccionario, números arábigos, números romanos, URL, expresión regular, y cada uno puede incluir muchos modelos específicos (por ejemplo, un palabra en uno de los idiomas conocidos, latín, cirílico, etc.).

Todas las acciones finales se llevan a cabo con hipótesis construidas mediante modelos. Por ejemplo, la verificación contextual determinará el idioma del documento e inmediatamente reducirá significativamente la probabilidad de que los modelos utilicen alfabetos incorrectos, y la verificación del diccionario compensará los errores en el reconocimiento incierto de ciertos caracteres: por ejemplo, la palabra "giro" está presente en el Diccionario de inglés, a diferencia de "tum" (en cualquier caso, no se encuentra entre los populares). Aunque la prioridad del diccionario es mayor que la de cualquier clasificador, no es necesariamente el último recurso y, en general, no impide realizar más comprobaciones: en primer lugar, como se mencionó anteriormente, existe un modelo de palabra que no está en el diccionario, y en segundo lugar, , la organización especial de los diccionarios permite con un alto porcentaje de probabilidades adivinar si alguna palabra desconocida puede pertenecer a un idioma en particular. Sin embargo, la verificación del diccionario (y la integridad de los diccionarios) tiene un impacto significativo en el resultado del reconocimiento y, en las propias pruebas de ABBYY, reduce la cantidad de errores a casi la mitad.

No sólo OCR

Los documentos impresos no son los únicos de interés desde el punto de vista de su digitalización y procesamiento automático. Muy a menudo hay que trabajar con formularios, es decir, documentos con campos predefinidos y fijos que se rellenan manualmente, pero con relativa precisión (los llamados caracteres impresos a mano); varios cuestionarios pueden servir como ejemplo. La tecnología para su procesamiento tiene un nombre aparte: ICR(reconocimiento inteligente de caracteres) - y se diferencia bastante del OCR. Entonces, dado que en este caso la tarea no es recrear todo el documento, sino extraer datos específicos de él, se divide en dos subtareas principales: encontrar los campos necesarios y reconocer su contenido.

Esta es un área bastante específica y ABBYY ofrece un producto de software completamente independiente, ABBYY FlexiCapture, para ello. Está destinado a la creación de sistemas automatizados y semiautomáticos, implica la personalización para tipos específicos de documentos para los cuales se crean plantillas especiales, puede encontrar de manera inteligente varios campos en las páginas y verificar los datos en ellas, etc. Sin embargo, en su núcleo se encuentra el reconocimiento de caracteres. algoritmos similares a los que se utilizan en FineReader, y el esquema general es muy similar:

Sin embargo, todavía hay una diferencia importante: el clasificador estructural es un participante obligatorio en el proceso; esto se debe a las características específicas de los símbolos impresos a mano. Además, el ICR implica una gran cantidad de comprobaciones adicionales específicas: por ejemplo, si un carácter está tachado o si los caracteres reconocidos forman realmente una fecha.

Todo sobre la tecnología móvil