简化OCR与不变的字体

本文关键字：字体 OCR 简化 | 更新日期: 2023-09-27 18:18:33

我正在做一个项目，需要一个更简单，更准确的OCR工具

我的场景:

每周图片都具有相同的结构
我有一个小区域，我需要从
另一个小区域，我需要从
字体总是相同的(这是我可以得到更准确的地方)
除了平面栅格化图像之外没有其他选择
核心软件是c#，所以最好使用CLI语言。
图像是300 dpi，所以有一个伟大的基础，从

我会使用普通的OCR程序，但我知道我可以得到更准确的结果，如果不是完美的结果，因为它总是相同的字体。

那么，什么是好的方法呢?我不想从头开始做大量的工作，但我不想要一个过度一般化的OCR工具来进行预训练。我想在这一种字体上训练它，这样它就会得到非常准确的结果。我也不想做特征提取，分离出单词，找到字母的行等

简化OCR与不变的字体

我可能会使用OpenCV的机器学习(例如使用haar级联)，除非角色的位置真的是完全静态的——在这种情况下，一个简单的比较就可以做到这一点(例如，使用绝对差异和找到最佳匹配)。

字体是否固定?如果没有，您可以使用一种特殊的OCR字体来获得难以混淆的字符，即使在较差的图像上也是如此。

虽然，考虑到你说你想教它，你可能最好是机器学习。

我会使用经济的OCR引擎，例如http://www.transym.com的TOCR。许可证费用非常便宜，OCR是快速和非常准确的结果，特别是如果你定义一个固定的矩形提取，没有背景噪声。在购买之前，您应该下载一个试用版来测试结果。

当你建立一个定制的OCR引擎并训练它时，你将花费比少量的许可费用多得多的钱，你可能会发现结果无论如何都更准确。

如果我们能看到你想要OCR的文本中的一两个图形，那么我们就能给出更准确的答案。

听起来您应该寻找字段级识别，其中您不对整个图像执行OCR，但仅指定一些带有坐标的字段。如果你正在计划一个商业软件，并寻求企业的准确性——看看www.ocrsdk.com——这是一个基于云的OCR SDK，最近由ABBYY推出。它现在处于测试阶段，所以完全免费使用。它有一个很好的方法，适合从文档和c#示例代码中提取文本。