텍스트 판독(OCRMax) 식별 도구 - 필딩 탭
필딩 탭은 텍스트 판독(OCRMax) 식별 도구의 필드 문자열과 필드 정의 파라미터를 생성 및 수정하는 그래픽 수단을 제공해 줍니다. 결과값은 리터럴 문자열로 도구에 삽입됩니다.
필딩은 문자열을 확인 및 정정함으로써 가장 일치도가 높은 유효한 문자열 세트를 반환하는 기능을 제공합니다. 필딩에는 2가지 주요 용도가 있습니다:
- OCR 결과 검증 - 필드 문자열과 필드 정의 파라미터에 따라 반환된 문자열이 맞는지 여부가 결정됩니다.
- OCR 결과 정정 - 반환된 문자열이 수용 가능 결과 목록에 없는 경우, 반환된 문자열에 가장 근접한 필드에 따라 허용되는 수용 가능 문자열을 찾으려는 시도가 이루어집니다.
필딩은 문자열에 접두사 및/또는 접미사 문자가 포함되어 있는 경우에 흔히 사용되며, 그러한 접두사/접미사 문자를 무시하는 데 사용됩니다. 이 경우, 필드 문자열 및 필드 정의가 영역 내 문자열 위치의 오프셋을 결정합니다.
문자열에 포함되어 있는 문자 개수를 지정합니다. 필드 문자열은 텍스트 입력 대화상자에 나와 있는 모든 알파벳-숫자 문자로 입력할 수 있습니다. 여기에는 (A - Z), (a - z), (0 - 9), 대시(-), 점(.), 및 공백( ) 등이 포함됩니다.
필드 문자열 내 각 문자는 0부터 31 사이의 인덱스 필드 위치에 상응합니다. 필드 문자열에는 최소한 해당 문자열에 포함되어 있는 문자와 동일한 개수의 위치가 포함되어 있어야 해당 판독의 통과가 가능합니다(즉, 문자가 10개 있지만 필드 문자열에는 문자가 9개 밖에 지정되어 있지 않은 경우, 가장 일치도가 높은 9개만 반환됩니다. 하지만, 문자가 8개 있는데 필드 문자열에 문자가 9개 정의되어 있는 경우, 이 함수는 #오류를 반환합니다). 기본 설정상, 필드 문자열 내 각 위치는 별표(*) 문자 또는 알파벳-숫자로 된 "와일드카드"로 표시됩니다. 와일드카드란 문자열 내 어떤 위치에 어떤 문자가 오더라도 유효하다는 의미입니다.
하지만, 필드 문자열 내의 개별 위치는 해당 위치에 올 수 있는 문자들의 하위 집합으로만 제한적으로 간주될 수 있습니다. 이렇게 되면 특정 위치에 올 수 없는 문자들은 판독 중에 고려 대상에서 제외될 것이기 때문에 전체적인 성능과 신뢰성이 높아집니다.
사전 정의된 필드 문자열 입력값은 다음과 같습니다:
|
필드 문자열 입력값 |
설명 |
유효한 문자 |
|
* |
와일드카드 |
글꼴의 트레이닝된 모든 문자. |
|
N |
숫자 |
0123456789 |
|
A |
알파벳 대문자 |
ABCDEFGHIJKLMNOPQRSTUVWXYZ |
|
a |
알파벳 소문자 |
abcdefghijklmnopqrstuvwxyz |
|
H |
16진수, 알파벳 대문자 및 숫자 |
0123456789ABCDEF |
|
h |
16진수, 알파벳 소문자 및 숫자 |
0123456789abcdef |
|
O |
8진수 |
01234567 |
- 필드 문자열 내 위치를 단일 문자로 제한하려면 간단히 해당 문자를 입력하시면 됩니다. 이 문자는 반드시 해당 글꼴로 트레이닝되어 있어야 하며, 위에 열거된 사전 정의 필드 문자열 중 하나가 아니어야 합니다. 단, 필드 정의 파라미터를 사용해 재매핑된 경우는 예외입니다.
- 공백이 포함되어 있는 문자열을 판독하려면, 해당 공백을 필드 문자열에 포함시키도록 하십시오. ReadText는 해당 위치에 있는 그에 상응하는 필드 문자열 입력값이 별표(*)인 경우, 공백을 판독하지 않습니다.
필드 문자열이 **********AN인 경우, 첫 10개 필드 문자열 위치에서 해당 글꼴로된 모든 문자가 유효합니다. 하지만 11번째 위치에서는 판독 중 알파벳 대문자 입력값만 고려 대상이 됩니다. 또, 12번째 위치에서는 숫자 입력값만 고려 대상입니다.
글꼴에 숫자 입력값 0-9와 /만 포함됩니다. 필드 문자열이 NN/NN/NN인 경우, 첫 번째와 두 번째, 네 번째와 다섯 번째, 일곱 번째와 여덟 번째 위치에서 숫자 입력값만 간주 대상이 됩니다. 또, 세 번째와 여섯 번째 위치에서는 포워드 슬래시(/)만 고려 대상이 됩니다.
하지만 필드 문자열이 NN/NN/AA인 경우, 글꼴에 알파벳 문자 입력값이 전혀 포함되어 있지 않기 때문에 판독 결과 #오류가 반환됩니다.
각 문자 위치에서 문자 필딩에 지정된 문자만 포함하도록 결과값을 제한할 것인지 여부를 정의합니다. 이 기능이 활성화되면, 분류 점수에 관계없이 해당 글꼴로 된 다른 문자들은 모두 무시됩니다.
선택 사항으로, 필드 정의 설정을 사용해 필드 문자열에 대해 사용자 정의 입력값을 생성할 수 있습니다. 이러한 입력값들이 필드 문자열에 포함될 경우, 삽입되는 위치에서 유효한 문자 목록을 제한하게 됩니다. 사전 정의된 필드 정의에는 여러 가지가 있으며, 여기에 사용자 정의 필드 정의를 추가할 수 있습니다. 사전 정의된 정의들은 회색 텍스트로 표시되며, 활성화 또는 비활성화만 가능하지 삭제나 변경은 불가능합니다. 사용자 정의 정의들은 검정 텍스트로 표시되며, 추가, 삭제 또는 변경이 가능합니다. 필드 정의를 추가하려면 새로 추가 버튼을 누른 다음, 해당 문자에 대한 아이콘을 배정하고 해당 문자에 정의를 배정하면 됩니다.
필드 정의 입력값 목록의 문자들은 해당 글꼴에 포함되어 있어야 합니다. 예를 들어: #=123은 사용자 트레이닝된 글꼴에 1, 2, 3이 포함되어 있는 경우에만 유효합니다. 1, 2, 3이 해당 글꼴에 포함되어 있지 않은 경우 #=123은 유효하지 않습니다.
필드 정의 값이 #=123;$=3456;%=789이고 필드 문자열 이 #$%*******인 경우, 첫 번째 위치에서 유효한 문자는 1, 2 또는 3뿐입니다. 두 번째 위치에서 유효한 문자는 3, 4, 5 또는 6뿐입니다. 또, 세 번째 위치에서는 7, 8 또는 9만 유효합니다. 네 번째부터 열 번째 위치까지는 해당 글꼴 내 모든 문자가 유효합니다.
필드 정의 값이 #=123;$=3456;%=789, A=A이고 필드 문자열 이 #$%******A인 경우, 첫 번째 위치에서 유효한 문자는 1, 2 또는 3뿐입니다. 두 번째 위치에서 유효한 문자는 3, 4, 5 또는 6뿐입니다. 또, 세 번째 위치에서는 7, 8 또는 9만 유효합니다. 네 번째부터 아홉 번째 위치까지는 해당 글꼴 내 모든 문자가 유효합니다. 또, 필드 정의 A=A가 사전 정의된 필드 문자열 입력값을 재매핑하기 때문에 열 번째 위치에서는 A 문자만 고려 대상이 됩니다.