Identifizierungswerkzeug "Text lesen (OCRMax)" – Registerkarte "Feld"
Die Registerkarte Feld ermöglicht eine grafische Erstellung und Bearbeitung der Parameter Zeichenbereich und Bereichsdefinitionen des Identifizierungswerkzeugs "Text lesen (OCRMax)". Die Ergebniswerte werden in das Werkzeug als Literalzeichenfolgen eingefügt.
"Feld" bietet die Möglichkeit, Zeichenfolgen zu überprüfen und zu korrigieren, damit die passendsten gültigen Zeichenfolgen zurückgegeben werden. "Feld" hat zwei Hauptfunktionen:
- Überprüfen der OCR-Ergebnisse, um festzustellen, ob die zurückgegebene Zeichenfolge korrekt ist oder nicht auf den Parametern Zeichenbereich und Bereichsdefinitionen basiert.
- Korrektur der OCR-Ergebnisse, wenn sich die zurückgegebene Zeichenfolge nicht in der Liste akzeptabler Ergebnisse befindet und versucht wird, eine akzeptable Zeichenfolge zu finden, die der zurückgegebenen Zeichenfolge am ähnlichsten ist.
Ein typischer Anwendungsfall für "Feld" sind Zeichenfolgen, die Präfix- oder Suffixzeichen enthalten, die unter Verwendung von "Feld" ignoriert werden. In diesem Fall wird durch die Parameter Zeichenbereich und Bereichsdefinitionen der Versatz der Position der Zeichenfolge im Bereich ermittelt.
Gibt die im Zeichensatz enthaltene Anzahl von Zeichen an. Ein Eintrag für den Zeichenbereich kann ein beliebiges, im Dialogfeld zur Texteingabe gefundenes Zeichen sein, einschließlich A bis Z, a bis z, 0 bis 9, Bindestrichen (-), Punkten (.) und Leerzeichen ( ).
Jedes Zeichen im Feld Zeichenbereich entspricht einer indizierten Feldposition zwischen 0 und 31. Der Zeichenbereich muss mindestens so viele Positionen enthalten, wie die Zeichenfolge Zeichen enthält, damit die Lesung erfolgreich ist. (Wenn 10 Zeichen vorhanden sind, der Zeichenbereich aber nur 9 Zeichen enthält, werden die 9 Zeichen mit der besten Übereinstimmung zurückgegeben. Sind jedoch 8 Zeichen vorhanden, und der Zeichenbereich definiert 9 Zeichen, gibt die Funktion eine Fehlermeldung aus.) Standardmäßig wird jede Position im Zeichenbereich als Sternchen (*) oder alphanumerischer Platzhalter dargestellt. Das bedeutet, dass jedes Zeichen an jeder Position der Zeichenfolge gültig ist.
Im Zeichenbereich können jedoch einzelne Positionen begrenzt werden, damit an dieser Position nur eine Teilmenge möglicher Zeichen berücksichtigt wird. Dadurch wird die Gesamtleistung und Zuverlässigkeit verbessert, da an einer Position nicht mögliche Zeichen bei einer Lesung nicht berücksichtigt werden.
Die vordefinierten Zeichenbereicheinträge lauten:
|
Zeichenbereich Eintrag |
Beschreibung |
Gültige Zeichen |
|
* |
Platzhalter |
Beliebiges eingelerntes Zeichen im Zeichensatz. |
|
N |
Ziffern |
0123456789 |
|
A |
Großbuchstaben |
ABCDEFGHIJKLMNOPQRSTUVWXYZ |
|
a |
Kleinbuchstaben |
abcdefghijklmnopqrstuvwxyz |
|
H |
Hexadezimalzeichen, Großbuchstaben und Ziffern |
0123456789ABCDEF |
|
h |
Hexadezimalzeichen, Kleinbuchstaben und Ziffern |
0123456789abcdef |
|
O |
Oktalzeichen |
01234567 |
- >Soll eine Position in einem Zeichenbereich auf ein einzelnes Zeichen beschränkt werden, geben Sie einfach dieses Zeichen ein. Das Zeichen muss im Zeichensatz trainiert sein und kann nicht zu den oben aufgeführten vordefinierten Zeichenbereicheinträgen gehören, außer es wurde mithilfe des Parameters Bereichsdefinitionen neu zugeordnet.
- >Soll eine Zeichenfolge gelesen werden, die ein Leerzeichen enthält, geben Sie im Zeichenbereich das Leerzeichen an. Leerzeichen werden von ReadText nicht gelesen, wenn der entsprechende Eintrag für den Zeichenbereich an dieser Position ein Sternchen (*) ist.
Lautet der Zeichenbereich **********AN, ist an den ersten 10 Zeichenbereichpositionen jedes Zeichen im Zeichensatz gültig. An der 11. Position werden jedoch nur Alphazeichen in Großschrift beim Lesevorgang berücksichtigt. An der 12. Position werden nur numerische Zeichen berücksichtigt.
Der Zeichensatz enthält nur die numerischen Zeichen 0 bis 9 und /. Lautet der Zeichenbereich NN/NN/NN, werden an der ersten und zweiten, vierten und fünften sowie siebten und achten Position nur numerische Zeichen berücksichtigt. An der dritten und sechsten Position wird nur der Schrägstrich (/) berücksichtigt.
Lautet der Zeichenbereich jedoch NN/NN/AA, wird bei der Lesung eine Fehlermeldung ausgegeben, da der Zeichensatz keine Alphazeichen enthält.
Gibt an, ob an jeder Zeichenposition die Ergebnisse auf Zeichen beschränkt werden, die im Feld des Zeichens festgelegt sind. Ist diese Option aktiviert, werden alle anderen Zeichen im Zeichensatz unabhängig von ihrer Klassifizierungsgüte ignoriert.
Die Einstellungen für die Felddefinitionen können optional verwendet werden, um benutzerdefinierte Einträge für den Zeichenbereich zu erstellen. Werden diese Einträge in den Zeichenbereich eingeschlossen, beschränken sie die Liste von gültigen Zeichen an den zugehörigen Einfügepositionen. Mehrere vordefinierte Felddefinitionen stehen zur Verfügung, und benutzerdefinierte Felddefinitionen können hinzugefügt werden. Die vordefinierten Definitionen werden als grauer Text angezeigt und können lediglich aktiviert oder deaktiviert werden. Sie können jedoch nicht entfernt oder bearbeitet werden. Benutzerdefinierte Definitionen werden als schwarzer Text angezeigt und können hinzugefügt, entfernt oder bearbeitet werden. Wenn Sie eine Felddefinition hinzufügen möchten, klicken Sie auf die Schaltfläche Neue hinzufügen, und weisen Sie dem Zeichen ein Symbol und anschließend eine Definition zu.
Zeichen für einen Felddefinitionen-Eintrag müssen im Datensatz enthalten sein. Beispiel: #=123 ist gültig, wenn 1, 2 und 3 im benutzerdefinierten, trainierten Zeichensatz enthalten sind. Sind 1, 2 und 3 jedoch nicht im Datensatz enthalten, ist #=123 ungültig.
Lautet der Wert von Felddefinitionen #=123;$=3456;%=789 und der Zeichenbereich #$%*******, sind an der ersten Position nur die Zeichen 1, 2 oder 3 gültig. An der zweiten Position sind nur die Zeichen 3, 4, 5 oder 6 gültig. An der dritten Position sind nur 7, 8 oder 9 gültig. An den Positionen vier bis zehn sind alle Zeichen im Zeichensatz gültig.
Lautet der Wert von Felddefinitionen #=123;$=3456;%=789, A=A und der Zeichenbereich #$%******A, sind an der ersten Position nur die Zeichen 1, 2 oder 3 gültig. An der zweiten Position sind nur die Zeichen 3, 4, 5 oder 6 gültig. An der dritten Position sind nur 7, 8 oder 9 gültig. An den Positionen vier bis neun sind alle Zeichen im Zeichensatz gültig. An der zehnten Position wird nur das Zeichen A berücksichtigt, da die Felddefinition A=A den vordefinierten Eintrag für den Zeichenbereich erneut zuordnet.