对法律文件图片进行分类最合适的分类算法是什么?
本文关键字:分类 算法 是什么 法律文件 | 更新日期: 2023-09-27 18:09:35
我在多个国家有一组文件,例如(标识符,驾驶执照和护照等),因此我需要将它们分别分类为其类别,然后我可以将任何新文件-不在我的集合中-分类为其类别。
文档可以旋转或移动,或者两者兼而有之。来自同一类的两个文档的文档颜色可能不完全相同。
最好的算法是什么?
问题不在于选择哪种分类算法,而在于理解分类问题中所有相关的隐藏维度。一旦理解了所涉及的所有维度,您就可以使用任何一种分类算法来实现您想要的结果。
正如其他人提到的,这不是一个真正的分类问题。此外,因为你的项目可能会旋转、倾斜等,你应该对图像执行某种对象检测/特征分析。
我建议研究感知哈希或加速鲁棒特性(SURF)(如果你正在处理大量的旋转/倾斜,更倾向于后者)。也就是说,我会将图像分解为非识别区域(例如,您将消除包含用户信息或照片的区域),专注于具有大量匹配特征点的区域。
在特定类ID的所有实例中使用一致的区域,这样您的匹配分数将更高,然后对您比较的所有部分进行汇总以执行分类。
有几十种甚至上百种分类算法——基本上你要找的是聚类。
http://en.wikipedia.org/wiki/Cluster_analysis要做到这一点,你必须分析文档并将其归结为几个关键数字。对于集群来说,这并不一定是完美的。
因此,进行某种规范化(旋转所有文档以使文本是水平的)可能是好的,但也可能不是。例如,如果一个键分类号是基于整体颜色的,那么对于任何旋转都是一样的。