模糊文本匹配c#

本文关键字:文本 模糊 | 更新日期: 2023-09-27 18:15:16

我正在写一个桌面UI()。Net WinForms)来帮助摄影师清理他的图像元数据。有一个66k多个短语的列表。谁能建议一个好的开源/免费。net组件,我可以使用它使用某种算法来识别潜在的候选整合?例如,可能有两个或多个条目实际上是相同的单词或短语,只是空白或标点符号,甚至轻微的拼写错误。应用程序最终将依赖于用户对短语的整合,但拥有一种有效的方法来自动找到潜在的候选人将被证明是非常宝贵的。

模糊文本匹配c#

让我来介绍一下Levenshtein距离公式。真是太棒了:

http://en.wikipedia.org/wiki/Levenshtein_distance

在信息论和计算机科学中,Levenshtein距离是测量两个序列之间差异的字符串度量。术语编辑距离通常用来特指Levenshtein距离。

我个人在医疗保健设置中使用此方法,检查提供程序名称是否重复。使用Levenshtein过程,我们给他们一个信心评级,让他们确定它是真正的复制品还是独一无二的。

请看https://github.com/JakeBayer/FuzzySharp

这是一个c# NuGet包,它有多个方法来实现某种模糊搜索方式。不确定,但也许Fosco的答案也被用在其中一个。

编辑:我刚刚注意到一个关于这个包的评论,但我认为它应该在这个问题中有更好的位置