텍스트 판독(OCRMax) 식별 도구 - 고급 탭
영역 분할 중 문자를 형성할 때 도구가 문자 조각들을 어떻게 합병시킬지를 정의합니다: 오버랩 필요(기본값), 최소 문자 간 갭 설정 또는 최소 문자 간 갭/최대 문자 간 갭 설정.
- 오버랩 필요: 병합되려면 문자 조각들이 최소 1개 픽셀씩 수평으로 겹쳐야 합니다.
- 최소 문자 간 갭 설정: 이들 사이에 수평 방향 갭이 있는 문자 조각들은 서로 합병되어 문자를 형성할 수 있으며, 이때 두 조각 간 갭이 최소 문자 간 갭 파라미터에 정의되어 있는 값보다 작은 경우, 그 두 조각은 합병됩니다.
- 최소 문자 간 갭/최대 문자 간 갭 설정: 이들 사이에 수평 방향 갭이 있는 문자 조각들은 서로 합병되어 문자를 형성할 수 있으며, 이때 2개 조각의 합병 가능 여부는 최소 문자 간 갭 및 최대 문자 간 갭 파라미터에 정의되어 있는 값에 따라 결정됩니다.
2개 문자 조각이 동일한 문자의 일부로 간주되기 위해 X 방향으로 서로 겹쳐야 하는 최소 비율(0 - 100; 기본값 = 0)을 정의합니다.
손상된 문자에 대해서도 단일 문자 내에 발생할 수 있는 최대 갭 크기를 픽셀(0 - 1000; 기본값 = 5) 단위로 정의합니다.
2개 문자 사이에 발생 가능한 최소 갭 크기를 픽셀(0 - 1000; 기본값 = 0) 단위로 정의합니다. 한 문자의 문자 사각형 오른쪽 경계부터 다음 문자의 문자 사각형 왼쪽 경계까지의 갭을 측정합니다. 2개 조각 사이의 갭이 이 값보다 작은 경우, 그 조각들은 반드시 동일한 문자의 일부로 간주해야 합니다. 단, 합쳐 만든 문자가 지나치게 넓은 경우는 예외입니다(최대 문자 너비 및/또는 최소 문자 종횡비 파라미터에 정해진 값 기준).
특정 문자에 포함되는 것으로 간주될 수 있으려면 조각이 가지고 있어야 하는 최소 전경(즉, 텍스트) 픽셀 개수(0 - 1000; 기본값 = 15)를 정의합니다. 문자 조각은 이진화된 영상상의 블롭입니다.
보고되려면 문자가 가지고 있어야 하는 최소 전경(즉, 텍스트) 픽셀 개수(0 - 5000; 기본값 = 30)를 정의합니다.
영상 정규화에 사용되는 모드를 정의합니다: 없음, 글로벌, 로컬 또는 로컬 고급(기본값).
- 없음: 정규화(표준화)가 실시되지 않습니다.
- 글로벌: 부분적 변동이 아닌, 전체 영역의 정보를 사용해 전체적인 정규화가 실시됩니다.
- 로컬: 해당 영역 내 각 로컬 문자 사각형에 대한 정보를 사용해 부분적 정규화를 실시해 영상을 정규화합니다.
- 로컬 고급: 영역 내 각 로컬 문자 사각형에 관한 정보를 사용해 부분적 정규화를 실시함으로써 영상을 정규화합니다. 여기에는 배경뿐 아니라 전경의 대비에 대한 조정도 포함됩니다.
정규화된 영상에서 영상의 나머지 부분과 스트로크 폭이 다른 것은 모두 제거할지 여부를 정의합니다(기본 설정상, 이 설정은 활성 상태입니다). 이 설정은 예를 들어 문자들이 서로 가는 노이즈 선들로 연결되어 있는 것으로 보일 때 유용합니다. 하지만, 이 설정을 사용하면 스트로크 폭이 균일하지 않은 경우 의도치 않게 실제 문자를 제거할 수도 있습니다.
함수가 영역의 경계와 조금이라도 닿는 조각들은 철저히 무시하는지 여부를 정의합니다(기본 설정상, 이 설정은 비활성 상태입니다). 그러한 조각들을 무시할 경우, 영역 내에 포함될 수 있는 라벨 경계 등과 같은 비텍스트 기능의 경우 유용할 수 있습니다.
정규화된 영상에서 전경과 배경 사이 영상을 이진화하는 이진화 임계치를 계산하는 데 사용되는 범위 내 백분율 변경자(0 - 100; 기본값 = 50)를 정의합니다.
특정 문자에 포함될 수 있다고 간주되기 위해서 이진화 임계치 관련, 조각이 반드시 가지고 있어야 하는 최소 대비량[정규화 영상 그레이스케일 레벨(0 - 255; 기본값 = 30)]을 정의합니다.
텍스트를 수평 방향으로 가로지르는 "기준선"으로부터 조각이 제거될 수 있는 거리를 픽셀(0 - 1000; 기본값 = 0) 단위로 정의합니다.
최적 문자 영역 분할을 결정하기 위해 실행될 문자 분석 모드 유형을 정의합니다: 최소 또는 표준(기본값).
- 최소: 영역 분할 파라미터에 따라 직접적으로 영역 분할을 실시합니다.
- 표준: 문자 간격을 포함한 전체적인 라인에 대해 분석을 실시해 최적 영역 분할을 결정합니다.
2개 분자 간 발생할 수 있는 최소 피치를 픽셀(0 - 1000; 기본값 = 0) 단위로 정의합니다. 이때, 피치는 문자 피치 위치 파라미터를 기준으로 계산합니다. 2개 조각 사이의 피치가 이 값보다 작은 경우, 그 조각들은 반드시 동일한 문자의 일부로 간주해야 합니다. 단, 합쳐 만든 문자가 지나치게 넓은 경우는 예외입니다(최대 문자 너비 및/또는 최소 문자 종횡비 파라미터에 정해진 값 기준). 피치는 근접 문자의 (대략적) 상응 지점 사이의 거리로 정의하며, 한 문자의 끝으로부터 다음 문자의 시작 지점까지의 거리(이것은 문자 간 갭이라고 부릅니다)를 의미하지 않습니다.
문자 간 피치를 측정하는 방법을 정의합니다: 자동(기본값), 왼쪽에서 왼쪽, 중앙에서 중앙 또는 오른쪽에서 오른쪽.
- 영역 분할 분석 모드 파라미터가 최소로 설정되어 있는 경우, 이 파라미터는 비활성화됩니다.
- "좌측"과 "우측"이라는 말은 영역의 정의에 따른 좌표축을 기준으로 합니다. 예: "우측" 은 양의 X 방향과 동일합니다.
- 자동: 알려지지 않은 메트릭이 사용 중임을 지정합니다. 적절한 피치는 다른 피치 위치 중 아무 것이나 가능하며, 그렇지 않을 경우 일정한 피치 위치가 없습니다(비례 피치 글꼴의 경우가 이에 해당될 수 있습니다).
- 왼쪽에서 왼쪽: 피치를 문자의 문자 사각형의 왼쪽부터 근접 문자의 문자 사각형의 왼쪽까지의 거리로 측정한다고 지정합니다.
- 중앙에서 중앙: 피치를 문자의 문자 사각형의 중앙부터 근접 문자의 문자 사각형의 중앙까지의 거리로 측정한다고 지정합니다.
- 오른쪽에서 오른쪽: 피치를 문자의 문자 사각형의 오른쪽부터 근접 문자의 문자 사각형의 오른쪽까지의 거리로 측정한다고 지정합니다.
문자 공백 정의에 사용되는 메트릭을 정의합니다: 자동(기본값), 고정, 비례 또는 가변.
- 자동: 알려지지 않은 피치를 지정하지만, 피치 유형은 가변이 아니라 고정 또는 비례 중에서 가능합니다.
- 고정: 피치가 고정되었음을 지정합니다. 다시 말해, (문자의 문자 사각형 폭에 관계없이) 모든 문자 쌍 사이의 피치가 일정하다는 뜻입니다. 피치는 문자 피치 위치 파라미터를 기준으로 측정합니다.
-
비례: 피치가 비례적임을 지정합니다. 다시 말해, 모든 문자쌍 사이의 피치는 특정 문자들에 따라 결정된다는 뜻입니다.
참고 :- 한 문자열에서 계속 일정하게 유지되는 피치 측정치는 없지만, 한 문자의 문자 사각형의 오른쪽부터 근접 문자의 문자 사각형의 왼쪽까지의 거리를 의미하는 문자 간 갭은 보통 대략적으로 일정합니다.
- "좌측"과 "우측"이라는 말은 영역의 정의에 따른 좌표축을 기준으로 합니다. 예: "우측" 은 양의 X 방향과 동일합니다.
- 가변: 한 문자열 전체에 걸쳐 일정하게 유지되는 문자에서 문자 사이의 거리 메트릭이 없다고 지정합니다. 예를 들어, 문자 위치가 모두 다르고 피치도 고정적이거나 비례적이 아닙니다.
도구가 분류 진행 중에 추가 문자 검증을 실시할 것인지 여부를 정의합니다(기본 설정상, 이 파라미터는 비활성 상태입니다). 비활성 상태인 경우, 분류 진행 중에 추가 문자 검증을 실시합니다. 추가 문자 검증을 실시하면 오독(즉, 문자의 오인식) 확률이 감소됩니다.
표시되어야 하는 출력 영상 유형을 정의합니다: 입력 영상(기본값), 정규화 영상 또는 이진화 영상.
- 입력 영상: 활성 입력 영상이 표시됩니다.
- 정규화 영상: 영상의 정규화된 버전이 표시됩니다.
- 이진화 영상: 영상의 이진화된 버전이 표시됩니다.