Veriff
Libraryblog¿Qué es el reconocimiento óptico de caracteres? (OCR)

¿Qué es el reconocimiento óptico de caracteres? (OCR)

La tecnología OCR de hoy está mucho más avanzada que las versiones iniciales de la tecnología. Esto se debe a que las soluciones avanzadas actuales tienen la capacidad de ofrecer una precisión de OCR casi perfecta y pueden ser utilizadas para automatizar flujos de trabajo complejos de procesamiento de documentos.

Header image
November 28, 2022
Publicación de Blog
Análisis
Share:

La tecnología de reconocimiento óptico de caracteres (OCR) puede ahorrar tiempo, dinero y esfuerzo a su negocio. Esto se debe a que el OCR utiliza capacidades de extracción y almacenamiento de datos automatizados que pueden mejorar la precisión de la entrada de datos y crear procesos de digitalización de archivos más rápidos

El OCR a veces se refiere como reconocimiento de texto. Esto se debe a que los programas de OCR se utilizan comúnmente para extraer y reutilizar datos de documentos escaneados, imágenes de cámara y PDFs solo de imágenes.

El OCR permite a los usuarios acceder y editar el contenido original. Pero, la tecnología OCR puede ser utilizada para mucho más que esto. Por ejemplo, también puede ser utilizada para eliminar la necesidad de entrada de datos manual, reconocer información en pasaportes y señales de tráfico, y para probar sistemas CAPTCHA anti-bot.

Una historia del OCR

Las primeras formas de reconocimiento óptico de caracteres involucraron la creación de dispositivos de lectura para ciegos. Por ejemplo, en 1914, Emanuel Goldberg desarrolló una máquina que leía caracteres y los convertía en código telegráfico estándar.

Luego, en las décadas de 1920 y 1930, Emanuel Goldberg desarrolló una máquina estadística para buscar en archivos de microfilmes utilizando un sistema de reconocimiento de códigos ópticos. En 1931, se le otorgó un número de patente estadounidense para la invención. Esta patente fue adquirida más tarde por IBM.

Una forma más moderna de reconocimiento óptico de caracteres fue primero introducida por Ray Kurzweil en 1974. Su empresa, Kurzweil Computer Products, Inc., creó un producto OCR de fuente omnifont que podía reconocer texto impreso en (casi) cualquier fuente. Una vez que diseñó el producto, Kurzweil decidió que la mejor aplicación de esta tecnología sería un dispositivo de aprendizaje automático para ciegos. Como resultado, la empresa también creó una máquina de lectura. Este dispositivo se utilizó para leer en voz alta el texto en un formato de texto a voz.

En 1976, el producto terminado fue inaugurado durante una conferencia de prensa ampliamente reportada encabezada por Kurzweil y los líderes de la Federación Nacional de Ciegos. Solo dos años más tarde, Kurzweil comenzó a vender una versión comercial del programa de computadora.

Después de experimentar éxitos iniciales, Kurzweil Computer Products, Inc., llamó la atención de XEROX, que compró la empresa en 1980 y comenzó a comercializar la conversión de texto de papel a computadora.

En parte debido a esto, la tecnología OCR ganó popularidad masiva a principios de la década de 1990, cuando se utilizó principalmente para digitalizar documentos históricos y periódicos. Antes de que la tecnología OCR estuviera disponible, la única forma de formatear digitalmente estos documentos y periódicos era reingresar el texto manualmente. Sin embargo, este proceso consumía increíblemente mucho tiempo y llevaba a una serie de inexactitudes y errores de tipeo. Aunque estas primeras versiones de la tecnología OCR no eran perfectas, eran mucho más precisas que los humanos y ahorraron una gran cantidad de tiempo.

Avancemos hasta el año 2000 y el OCR se puso a disposición en línea como un servicio en un entorno de computación en la nube y en aplicaciones móviles. Desde entonces, la tecnología OCR se ha puesto a disposición en aplicaciones de dispositivos móviles conectados a Internet que extraen texto capturado usando la cámara del dispositivo. Ahora, hay distintos sistemas OCR comerciales y de código abierto disponibles para la mayoría de los sistemas de escritura comunes, incluyendo caracteres latinos, árabes, hebreos, tamil, chinos, japoneses y coreanos.

La tecnología OCR de hoy está mucho más avanzada que las versiones iniciales de la tecnología. Esto se debe a que las soluciones avanzadas actuales tienen la capacidad de ofrecer una precisión de OCR casi perfecta y pueden ser utilizadas para automatizar flujos de trabajo complejos de procesamiento de documentos. Pero, no solo las soluciones son mucho más avanzadas y precisas, sino que también son aplicables a un número mucho mayor de casos de uso. Veamos algunos de estos en mayor detalle.

Casos de uso del reconocimiento óptico de caracteres

Para el usuario moderno, la tecnología OCR puede parecer un concepto abstracto y técnico. Sin embargo, lo contrario es el caso y muchos de nosotros encontramos la tecnología OCR en nuestras vidas de manera regular.

Además de esto, los servicios OCR también están ampliamente disponibles al público. Por ejemplo, Google Cloud Vision OCR puede ser utilizado para escanear y almacenar documentos en cualquier teléfono inteligente. Incluso puede probarlo gratis en Google Cloud.

Con esto en mente, veamos un análisis detallado de algunas de las maneras en que se utiliza la tecnología OCR.

Entrada de datos

El OCR se utiliza principalmente con fines de entrada de datos. Puede ingresar datos de registros en papel impresos y documentos comerciales, incluyendo pasaportes, facturas, extractos bancarios y recibos.

El OCR también es una forma común de digitalizar texto impreso. Después del OCR, los documentos pueden ser editados electrónicamente, buscados, almacenados de manera más compacta, mostrados en línea y utilizados en procesos de máquina como la computación cognitiva y la traducción automática.

Registro de vehículos

El OCR también puede ser utilizado para el reconocimiento automático de matrículas. En estos casos, el OCR puede leer las matrículas de un vehículo e identificar la ubicación de un vehículo. Para hacer esto, puede utilizar las cámaras de videovigilancia y las cámaras de control de tráfico existentes.

En estos escenarios, el reconocimiento automático de matrículas es utilizado por las fuerzas policiales para comprobar si un vehículo está registrado o licenciado. También se utiliza para la recolección electrónica de peajes en carreteras de pago, para fines de control de estacionamiento y como un método de catalogación de movimientos de tráfico

Reconocimiento de pasaportes

En los aeropuertos, la tecnología OCR se utiliza para el reconocimiento de pasaportes. En las fronteras, puede ser utilizada para extraer información de un pasaporte que se coloca sobre un escáner. Esta información se escanea contra bases de datos de terceros para asegurar que el pasaporte sea auténtico, que la persona sea real y que el pasajero esté autorizado para volar.

Extracción de documentos

El OCR también se utiliza a menudo para extraer piezas clave de información de documentos. En documentos largos (como la documentación de seguros), puede ser difícil para las personas encontrar la información que necesitan de un vistazo. El OCR hace que sea posible encontrar esta información en un instante. En un contexto empresarial, esto conduce a enormes ahorros de tiempo y reducción del tiempo administrativo.

Reconocimiento de señales de tráfico

Con la tecnología de reconocimiento de señales de tráfico, los vehículos pueden reconocer las señales de tráfico en el camino y alertar al conductor. Comúnmente, esta tecnología utiliza OCR y luego informa al conductor sobre características de seguridad vial próximas, como un límite de velocidad o si se están acercando a una curva cerrada o a un camino con acceso restringido.

Extracción de detalles de tarjetas de presentación

La tecnología OCR también puede ser utilizada para extraer información de tarjetas de presentación. Una vez que se ha extraído la información de la tarjeta de presentación, puede ser colocada en una lista de contactos. Esto ahorra tiempo, facilita el procesamiento de datos y crea oportunidades compartibles para los equipos de ventas.

Escaneo de texto de documentación impresa

El OCR puede ser utilizado para hacer visualizaciones de texto de documentos impresos. Por ejemplo, el OCR puede ser utilizado para escanear libros y digitalizarlos, convirtiéndolos en libros electrónicos. También puede convertir revistas en medios digitales.

Esta técnica está asociada principalmente con el Proyecto Gutenberg, un esfuerzo voluntario por digitalizar y archivar obras culturales. La biblioteca digital más antigua del mundo, el Proyecto Gutenberg ha digitalizado más de 60,000 documentos y los ha puesto a disposición de forma gratuita en el dominio público. Todos los archivos digitalizados se pueden acceder bajo un formato abierto, que está disponible en casi cualquier computadora.

Conversión de texto manuscrito (computación de lápiz)

La computación de lápiz (el acto de una interfaz de usuario de computadora que utiliza un lápiz o un stylus y una tableta en lugar de un teclado o un mouse) depende de la tecnología OCR. Esto se debe a que la tecnología tiene la capacidad de convertir escritura a mano en tiempo real.

Pruebas de sistemas CAPTCHA anti-bot

Aunque los sistemas CAPTCHA anti-bot han sido diseñados específicamente para vencer a los bots, hay algunas evidencias de que el OCR aún puede eludir sistemas deficientes. Por esta razón, la tecnología OCR todavía se utiliza ampliamente para probar la solidez de los sistemas CAPTCHA y encontrar debilidades antes de que los sistemas sean implementados.

Escribiendo instrucciones basadas en imágenes CAD

La tecnología OCR se utiliza comúnmente para escribir instrucciones basadas en imágenes CAD. Esto significa que las instrucciones pueden ser escritas en tiempo real a medida que se diseña un producto.

Convirtiendo documentos a PDFs

Finalmente, la tecnología OCR también se utiliza regularmente para hacer que los documentos escaneados sean buscables. Esto es posible porque la tecnología OCR puede convertir documentos impresos en PDFs buscables.

Tipos de tecnología de reconocimiento óptico de caracteres

El reconocimiento óptico de caracteres es generalmente un proceso fuera de línea que analiza documentos estáticos. Sin embargo, algunos servicios basados en la nube ofrecen un servicio API de OCR en línea.

Hay diferentes tipos de OCR disponibles y los cuatro tipos principales son:

#1 Reconocimiento óptico de caracteres

Esta forma de OCR apunta a texto mecanografiado, un glifo (marca intencionada) o carácter a la vez.

#2 Reconocimiento óptico de palabras

Este tipo de OCR también apunta a texto mecanografiado, pero lo hace palabra por palabra. Este estilo de OCR es particularmente útil para idiomas que utilizan un espacio como divisor de palabras.

#3 Reconocimiento inteligente de caracteres

Por otro lado, el reconocimiento inteligente de caracteres (ICR) apunta a texto manuscrito o cursivo, un glifo o carácter a la vez. Este proceso generalmente involucra aprendizaje automático, que mejora la precisión.

#4 Reconocimiento inteligente de palabras

De manera similar, el reconocimiento inteligente de palabras (IWR) también apunta a texto manuscrito o cursivo, pero lo hace palabra por palabra. Este tipo de OCR se utiliza con mayor regularidad para idiomas donde los glifos no están separados en cursiva.

Técnicas comunes de OCR

Las técnicas OCR varían según el caso de uso y el tipo de tecnología OCR. Sin embargo, la mayoría de las formas de OCR incluyen técnicas como preprocesamiento, reconocimiento de texto y postprocesamiento. Algunas también implican optimización específica de la aplicación. Veamos cada una de estas técnicas en mayor detalle.

Preprocesamiento

Los programas OCR a menudo preprocesan imágenes. Al hacerlo, el software mejora las posibilidades de reconocimiento exitoso. Se utilizan ampliamente una serie de técnicas de preprocesamiento, pero las opciones más comunes incluyen:

  • Desviación del documento para asegurar una correcta alineación
  • Eliminación de manchas del documento para eliminar puntos positivos y negativos
  • Conversión de una imagen de color o escala de grises a blanco y negro para mejorar la calidad del reconocimiento de caracteres
  • Detección de líneas y palabras, que establece un punto de referencia para las formas de palabras y caracteres
  • Análisis de diseño, que implica la identificación de columnas, párrafos y subtítulos

Reconocimiento de texto

Cuando se trata de reconocimiento de texto, hay dos tipos básicos de algoritmos OCR:

  • Coincidencia de patrones. Aquí, los programas OCR reciben ejemplos de texto en varias fuentes y formatos. Estos se utilizan para comparar y reconocer caracteres en el documento escaneado
  • Extracción de características. Aquí, los programas OCR aplican reglas sobre las características de una letra o número específico para reconocer caracteres en el documento escaneado. Las características pueden incluir el número de líneas anguladas, líneas cruzadas o curvas en un carácter para comparación

Algunos programas de software utilizan un enfoque de dos etapas para el OCR. Aquí, la segunda etapa se conoce como 'reconocimiento adaptativo' y utiliza las formas de letras reconocidas con alta confianza en la primera etapa para mejorar el reconocimiento de las letras restantes en la segunda etapa. Alternativamente, algunos programas modernos de OCR utilizan redes neuronales, que están entrenadas para reconocer líneas completas de texto en lugar de centrarse en caracteres individuales.

Pero, la tecnología que rodea al OCR está evolucionando constantemente y nuevas técnicas están surgiendo continuamente. Por ejemplo, el OCR iterativo ahora puede recortar automáticamente un documento en secciones basado en el diseño de la página. El OCR se realiza en las secciones de manera individual utilizando umbrales de nivel de confianza de caracteres variables para maximizar la precisión de OCR a nivel de página.

Postprocesamiento

El postprocesamiento puede mejorar la precisión del OCR. Dependiendo de la complejidad del documento, la fase de postprocesamiento puede simplemente involucrar la revisión y comprobación humana del documento antes de circularlo.

La precisión del OCR puede aumentar si la salida está restringida por un léxico, como todas las palabras en el idioma inglés o un léxico técnico para un determinado campo. Por esta razón, algunas piezas de software OCR utilizan un diccionario para influir en la etapa de segmentación de caracteres y mejorar la precisión.

De manera similar, al realizar un análisis de vecinos cercanos durante el postprocesamiento, las empresas pueden hacer uso de frecuencias de coocurrencia para corregir errores. En ciertas industrias y nichos, se utilizan algoritmos como el algoritmo de distancia de Levenshtein en el postprocesamiento de OCR para mejorar aún más los resultados.

Optimización específica de la aplicación

El avance de las tecnologías y técnicas OCR significa que los proveedores de sistemas de reconocimiento óptico de caracteres han ajustado sus ofertas y asegurado que estos sistemas puedan ahora lidiar con tipos específicos de entrada. Esto significa que estos sistemas pueden tener en cuenta reglas comerciales, expresiones estándar o información rica contenida en imágenes a todo color.

Conocido como OCR orientado a aplicaciones o OCR personalizado, esta forma de reconocimiento óptico de caracteres se ha aplicado al escaneo de matrículas, facturas, capturas de pantalla, tarjetas de identificación, licencias de conducir y manufactura de automóviles.

Evite que los clientes sean víctimas de estafas de verificación de identidad con Veriff - Solicite una demostración

Si su negocio necesita verificar los documentos de identidad de los clientes, entonces nuestra solución de verificación de identidad es perfecta.

Utilizando tecnología OCR, puede verificar los documentos de identidad en tiempo real y detectar documentos falsos y manipulados. Extrae datos de código de barras, MRZ y NFC y los compara con los documentos de identidad. Utilizando webhooks, puede recibir instantáneamente datos primarios, como nombres, fechas de nacimiento, números de documento y otra información en el documento. Cubre más de 12,000 identificaciones de más de 230 países y territorios y en más de 48 idiomas.

Si desea verificar a los clientes y asegurar la precisión de los datos, entonces solicite la ayuda de nuestra solución de autenticación biométrica. De esta manera, puede confirmar que cualquier usuario que regrese es exactamente quien dice ser.

Con la ayuda de nuestra solución, puede asegurar cuentas de clientes y dar un paso más allá de las contraseñas y los códigos de un solo uso. También puede simplificar el proceso de autenticación y hacerlo más seguro. Los usuarios pueden ser autenticados en solo un segundo.

Si desea obtener más información sobre cómo cualquiera de nuestras soluciones puede ayudar a su negocio, contacte a nuestros expertos y organice una demostración gratuita hoy.