Outil d'identification Lire le texte (OCRMax) - Onglet Recherche ciblée
L'onglet Recherche ciblée offre un moyen graphique de créer et de modifier les paramètres Chaîne du champ et Définitions du champ de l'outil d'identification Lire le texte (OCRMax). Les résultats sont insérés dans l'outil comme chaînes littérales.
La fonction Recherche ciblée permet de vérifier et de corriger les chaînes, renvoyant les meilleures correspondances de chaînes valides. Cette fonction recouvre deux utilisations principales :
- La vérification des résultats OCR, selon laquelle la chaîne renvoyée est déterminée comme étant correcte ou non selon les paramètres Chaîne du champ et Définitions du champ.
- La correction des résultats OCR, selon laquelle la chaîne renvoyée ne figure pas sur la liste des résultats acceptables, et une tentative de recherche de chaîne acceptable autorisée par le champ le plus proche de la chaîne renvoyée est effectuée.
Une utilisation classique de la recherche ciblée est lorsque la chaîne contient des préfixes et/ou des suffixes, et que la recherche ciblée est utilisée pour ignorer ces préfixes/suffixes. Dans ce cas, les paramètres Chaîne du champ et Définitions du champ déterminent l'offset de la position de la chaîne dans la région.
Détermine le nombre de caractères contenus dans la chaîne de caractères. Une entrée Chaîne du champ peut être tout caractère alphanumérique inclus dans la boîte de dialogue de l'éditeur de texte, dont les caractères (A à Z), (a à z), (0 à 9), le tiret (-), les points (.) et les espaces ( ).
Chaque caractère de la Chaîne du champ correspond à une position de champ indexée entre 0 et 31. La Chaîne du champ doit compter au moins autant de positions qu'il y a de caractères dans la chaîne pour que la lecture réussisse (par exemple, si 10 caractères sont présents et que la Chaîne du champ ne spécifie que 9 caractères, les 9 meilleures correspondances sont renvoyées ; cependant, si 8 caractères sont présents et que la Chaîne du champ spécifie 9 caractères, la fonction renvoie #ERR). Par défaut, chaque position de la Chaîne du champ est représentée par un astérisque (*), c'est-à-dire un « caractère générique » alphanumérique. Ceci signifie que tout caractère est valide à toute position de la chaîne.
Cependant, une position particulière de la Chaîne du champ peut être limitée afin de ne prendre en compte qu'un sous-ensemble de caractères possibles à cette position. Cela permet d'augmenter les performances et la fiabilité de l'opération, car les caractères qui ne sont pas acceptables à une position ne seront pas pris en compte lors d'une lecture.
Les entrées de Chaîne du champ prédéfinies sont les suivantes :
|
Chaîne du champ Entrée |
Description |
Caractères valides |
|
* |
Caractère générique |
Tout caractère appris dans la police. |
|
N |
Numérique |
0123456789 |
|
A |
Alphabétique en majuscules |
ABCDEFGHIJKLMNOPQRSTUVWXYZ |
|
a |
Alphabétique en minuscules |
abcdefghijklmnopqrstuvwxyz |
|
H |
Hexadécimal, alphabétique en majuscules et numérique |
0123456789ABCDEF |
|
h |
Hexadécimal, alphabétique en minuscules et numérique |
0123456789abcdef |
|
O |
Octal |
01234567 |
- Pour restreindre une position dans une Chaîne du champ afin de ne prendre en compte qu'un seul caractère, il suffit de saisir ce caractère. Celui-ci doit avoir été appris dans la police et ne peut pas être l'une des entrées de Chaîne du champ prédéfinies indiquées plus haut, sauf s'il a été remappé à l'aide du paramètre Définitions du champ.
- Pour lire une chaîne contenant une espace, tapez l'espace dans la Chaîne du champ. ReadText ne lit pas une espace si l'entrée de Chaîne du champ correspondant à cette position est un astérisque (*).
Si la Chaîne du champ est **********AN, tous les caractères de la police sont valides dans les 10 premières positions de Chaîne du champ. À la onzième position, seuls les caractères alpha majuscules sont pris en compte lors de la lecture. À la douzième position, seuls des caractères numériques sont pris en considération.
La police ne compte que les caractères numériques 0-9 et le caractère /. Si la Chaîne du champ est NN/NN/NN, seuls les caractères numériques seront pris en compte aux première et deuxième, quatrième et cinquième, septième et huitième positions. Seule la barre oblique (/) sera prise en considération aux troisième et sixième positions.
Cependant, si la Chaîne du champ est NN/NN/AA, la lecture renvoie #ERR, car la police ne contient pas de caractères alpha.
Indique s'il faut, à chaque position de caractère, restreindre les résultats pour qu'ils ne contiennent que les caractères spécifiés par la recherche ciblée. Lorsque ce paramètre est activé, tous les autres caractères de la police sont ignorés, indépendamment de leur score de classification.
Vous pouvez utiliser le paramètre Définition du champ afin de créer des entrées personnalisées pour la Chaîne du champ. Lorsqu'elles sont incluses dans la Chaîne du champ, ces entrées limitent la liste des caractères valides aux positions auxquelles elles sont insérées. Il existe plusieurs définitions du champ prédéfinies, et des définitions du champ définies par l'utilisateur peuvent être ajoutées. Les définitions prédéfinies apparaissent en gris et ne peuvent pas être supprimées ou modifiées, seulement activées ou désactivées. Les définitions définies par l'utilisateur apparaissent en noir et peuvent être ajoutées, supprimées ou modifiées. Pour ajouter une définition du champ, cliquez sur Ajouter nouvelle, affectez une icône et une définition au caractère.
Les caractères listés pour une entrée de Définitions du champ doivent être inclus dans la police. Par exemple : #=123 est valide si 1, 2 et 3 se trouvent dans la police apprise par l'utilisateur. Cependant, #=123 est incorrect si 1, 2 et 3 ne font pas partie de la police.
Si la valeur de Définitions du champ est #=123;$=3456;%=789, et que celle de Chaîne du champ est #$%*******, les seuls caractères valides en première position seront 1, 2 ou 3. Les seuls caractères valides en deuxième position seront 3, 4, 5 ou 6. En troisième position, seuls 7, 8 ou 9 seront valides. Tous les caractères de la police sont valides de la quatrième à la dixième position.
Si la valeur de Définitions du champ est #=123;$=3456;%=789, A=A et que celle de Chaîne du champ est #$%******A, les seuls caractères valides en première position seront 1, 2 ou 3. Les seuls caractères valides en deuxième position seront 3, 4, 5 ou 6. En troisième position, seuls 7, 8 ou 9 seront valides. Tous les caractères de la police sont valides de la quatrième à la neuvième position. Seul le caractère A sera pris en compte à la dixième position, car la Définition du champ A=A remappe l'entré Chaîne du champ prédéfinie.