对法律文件图片进行分类最合适的分类算法是什么?

本文关键字：分类算法是什么法律文件 | 更新日期: 2023-09-27 18:09:35

我在多个国家有一组文件，例如(标识符，驾驶执照和护照等)，因此我需要将它们分别分类为其类别，然后我可以将任何新文件-不在我的集合中-分类为其类别。

文档可以旋转或移动，或者两者兼而有之。来自同一类的两个文档的文档颜色可能不完全相同。

最好的算法是什么?

问题不在于选择哪种分类算法，而在于理解分类问题中所有相关的隐藏维度。一旦理解了所涉及的所有维度，您就可以使用任何一种分类算法来实现您想要的结果。

正如其他人提到的，这不是一个真正的分类问题。此外，因为你的项目可能会旋转、倾斜等，你应该对图像执行某种对象检测/特征分析。

我建议研究感知哈希或加速鲁棒特性(SURF)(如果你正在处理大量的旋转/倾斜，更倾向于后者)。也就是说，我会将图像分解为非识别区域(例如，您将消除包含用户信息或照片的区域)，专注于具有大量匹配特征点的区域。

在特定类ID的所有实例中使用一致的区域，这样您的匹配分数将更高，然后对您比较的所有部分进行汇总以执行分类。

有几十种甚至上百种分类算法——基本上你要找的是聚类。

http://en.wikipedia.org/wiki/Cluster_analysis

要做到这一点，你必须分析文档并将其归结为几个关键数字。对于集群来说，这并不一定是完美的。

因此，进行某种规范化(旋转所有文档以使文本是水平的)可能是好的，但也可能不是。例如，如果一个键分类号是基于整体颜色的，那么对于任何旋转都是一样的。