读取文本识别 (OCRMax) 工具 - 训练选项卡
训练选项卡能被用来训练、预览、重命名以及删除字符。该选项卡被分成两个组:训练组,其中定义了字符训练参数;字符组,其中管理训练过的字集。
注意:
- 在训练选项卡中,区域能被调整且分割图形(字符矩形)在区域被修改时会被更新。
- 不支持多字节字符的名称(如汉字)。多字节字符可以训练,但字符的名称必须是单字节的名称。
注意:在字符可以训练之前,它们必须被正确分段。
- 训练字符串:指定需要被训练的文本字符串。在训练字符串文本输入框中的字符数必须与被分段的字符数匹配。最多可训练50个字符。
- 训练所有字符:指定在区域内所有需要被训练的字符。需要被训练的字符要在点击训练所有按钮前输入训练字符串文本输入框。在训练字符串文本输入框中的字符数必须与被分段的字符数匹配。
- 训练新字符:指定只训练在区域内的新字符。需要被训练的字符要在点击训练按钮前输入训练字符串文本输入框。在训练字符串文本输入框中的字符数必须与被分段的字符数匹配。
- 训练所选择的字符:指定区域内特定的需要被选练的字符。当选择了该选项,训练字符串文本输入框会被禁用且训练所选择的字符按钮会启动添加选择的字符到字集对话框。该对话框包含了区域内解开的图像以及在每个分段的字符下有一个标签和文本输入框。标签是现在与该字符相关的符号("?"“表示一个未知或未训练的字符)。在标签下的是一个文本输入框。在文本输入框中为每个分过段的字符输入一个标签;如不再训练字符,保留文本输入框为空。按训练按钮来关闭对话框。
训练之后,每个训练过的字符会在树形结构中显示,其中字符会被指定一个文件夹和标签并组合在一起(如果字符有匹配的标签)。
- 在右边显示栏里选择主字集文件夹(root Font folder)来显示字集里所有的字符。字符将以图标显示,且有一个标签在字符下。
- 在右边显示栏里选择一个字符文件夹来显示关于该字符的所有训练实例。字符将以图标显示,且有一个标签在字符下。
-
选择一个字符的训练实例来显示该字符,缩放该字符使其适合右边的显示栏。
提示:在运行期间使用多次训练实例工具来读取字符能让函数更好的区分相似的字符类型。然而,训练相同字符的多个实例有优点和缺点。训练多个实例的优点在于它能更好的执行分类,尤其是在读取比较容易被误分类的文本(如 8 和 B)。训练多个实例的缺点在于它会缩短函数执行的时间。且因为训练多个实例不仅会提高最高的分值,也会提高第二高的分值,所以置信度分值可能会降低。同时还存在训练无效字符的可能。
- 导入:启动打开对话框,被保存为 OCRMax 数据文件(*.ocm)的字集会被导入。
- 导出:启动另存为对话框,字集会被作为OCRMax 数据文件(*.ocm)来保存。
-
重命名:在选择需要重新命名的条目后点击该按钮。任何在树形结构或右边列表栏中的项目都可以被重命名。
注意:重命名一组字符会给该组内所有的字符分配一个新的标签。重命名一个字符会单给这个字符分配一个新的标签;而该字符会被移到树形结构下新的或不同的组。 - 删除:选择需要从字集中被删除的条目,然后点击该按钮。任何在树形结构或右边列表栏中的项目都可以被重命名。
注意:删除字集文件夹会清除字集。所有字符会被删除。删除一组字符会删除所有其它与该组内标签匹配的字符。