简化OCR与不变的字体
本文关键字:字体 OCR 简化 | 更新日期: 2023-09-27 18:18:33
我正在做一个项目,需要一个更简单,更准确的OCR工具
我的场景:
- 每周图片都具有相同的结构
- 我有一个小区域,我需要从 中获取一个数字
- 另一个小区域,我需要从 中获取带有连字符的文本
- 字体总是相同的(这是我可以得到更准确的地方)
- 除了平面栅格化图像之外没有其他选择
- 核心软件是c#,所以最好使用CLI语言。
- 图像是300 dpi,所以有一个伟大的基础,从 工作
我会使用普通的OCR程序,但我知道我可以得到更准确的结果,如果不是完美的结果,因为它总是相同的字体。
那么,什么是好的方法呢?我不想从头开始做大量的工作,但我不想要一个过度一般化的OCR工具来进行预训练。我想在这一种字体上训练它,这样它就会得到非常准确的结果。我也不想做特征提取,分离出单词,找到字母的行等
我可能会使用OpenCV的机器学习(例如使用haar级联),除非角色的位置真的是完全静态的——在这种情况下,一个简单的比较就可以做到这一点(例如,使用绝对差异和找到最佳匹配)。
字体是否固定?如果没有,您可以使用一种特殊的OCR字体来获得难以混淆的字符,即使在较差的图像上也是如此。
虽然,考虑到你说你想教它,你可能最好是机器学习。
我会使用经济的OCR引擎,例如http://www.transym.com的TOCR。许可证费用非常便宜,OCR是快速和非常准确的结果,特别是如果你定义一个固定的矩形提取,没有背景噪声。在购买之前,您应该下载一个试用版来测试结果。
当你建立一个定制的OCR引擎并训练它时,你将花费比少量的许可费用多得多的钱,你可能会发现结果无论如何都更准确。
如果我们能看到你想要OCR的文本中的一两个图形,那么我们就能给出更准确的答案。
听起来您应该寻找字段级识别,其中您不对整个图像执行OCR,但仅指定一些带有坐标的字段。如果你正在计划一个商业软件,并寻求企业的准确性——看看www.ocrsdk.com——这是一个基于云的OCR SDK,最近由ABBYY推出。它现在处于测试阶段,所以完全免费使用。它有一个很好的方法,适合从文档和c#示例代码中提取文本。