OCV/OCR

Las herramientas OCV/OCR leen y verifican cadenas de texto utilizando fuentes entrenadas. Las herramientas OCV/OCR incluyen las siguientes funciones:

OCRMax: Entrena, lee y verifica caracteres en cadenas de texto.
OCRMaxSettings: Proporciona acceso programático a parámetros de segmentación y otros parámetros avanzados de lectura de texto.

OCV/OCR Descripción general

El In-Sight Explorer proporciona dos métodos diferentes para la verificación óptica de caracteres (OCV) y el reconocimiento óptico de caracteres (OCR) durante la inspección de cadenas de texto alfanuméricas en una imagen: las funciones OCRMax y OCRMaxSettings.

Funciones OCRMax y OCRMaxSettings

La función OCRMax realiza el reconocimiento óptico de caracteres (OCR, por sus siglas en inglés) a través de un proceso de segmentación y clasificación. Realiza primero la segmentación utilizando técnicas de umbral para identificar las áreas de la imagen que parecen contener líneas de texto. Una vez segmentado el texto en caracteres, se entrenan los caracteres y almacenan en una base de datos de fuentes. La clasificación se realiza durante el tiempo de ejecución e implica leer los textos detectados tras la operación de segmentación. En particular, se comparan las imágenes de los caracteres segmentados con los caracteres entrenados de la fuente.

Nota: La función OCRMax es una función independiente, es decir, puede realizar la segmentación y clasificación sin tener que utilizar la función OCRMaxSettings. La función OCRMaxSettings proporciona parámetros avanzados de segmentación y clasificación para aplicaciones muy complejas y ofrece la posibilidad de controlar programáticamente los ajustes de los parámetros desde un dispositivo remoto.

Segmentación

Durante el proceso de segmentación, la función OCRMax determina la ubicación de la línea de texto dentro de la RDI y calcula el ángulo, la inclinación del texto y la polaridad. A continuación, se normaliza la región para eliminar ruido molesto antes de binarizar la región de la imagen en píxeles primer plano y píxeles de fondo. En la imagen binarizada, se realiza un análisis de blobs para obtener fragmentos de caracteres, siendo cada fragmento de carácter un blob individual. A continuación, se agrupan los fragmentos de caracteres para formar caracteres y se asigna un rectángulo de carácter a los distintos caracteres.

La línea de texto en la RDI se subdivide en imágenes de caracteres individuales y cada uno de estos caracteres está encerrado en un rectángulo envolvente de carácter no editable. La RDI define aproximadamente la ubicación, el ángulo y la inclinación de la línea de texto. Los parámetros «Intervalo de ángulos» e «Intervalo de inclinaciones» de la ficha Segmentación pueden utilizarse para compensar las variaciones, si fuera necesario.

Nota: Es importante comprender que la función OCRMax no es un localizador de cadenas de uso general; no es capaz de encontrar una cadena en una imagen arbitrariamente compleja con una RDI grande. La RDI debe configurarse directamente sobre la línea de texto.

Clasificación

Una vez completada la segmentación y entrenados los caracteres en una base de datos de fuentes, ya puede comenzar la clasificación de los caracteres en las imágenes exploradas durante el tiempo de ejecución. La clasificación toma como entrada imágenes de caracteres segmentados y determina a partir de ello la letra correspondiente. Clasifica todas las imágenes de caracteres segmentados en una línea de texto y da la cadena completa de toda la línea de texto.

La clasificación se realiza tras el entrenamiento que es cuando se asigna un título a los caracteres individuales sobre la base de una cadena de caracteres introducidos o valores asignados por el usuario. Una vez entrenado y agrupado un conjunto de caracteres en una fuente, la clasificación se realiza comparando las imágenes presentadas en tiempo de ejecución con los caracteres de la fuente y, a continuación, la función da el carácter de mejor coincidencia junto con la puntuación de coincidencia que ha obtenido.

Cada carácter se entrena mediante un o varios ejemplos de caracteres a clasificar. Los caracteres se agrupan en una fuente que se almacena en la estructura de datos OCRMax de la función OCRMax. La fuente incluye todos los caracteres entrenados y cada carácter comprende su nombre, una imagen del rectángulo del carácter y la información que contiene (por ejemplo, la tinta del texto).