最大编辑距离和建议基于词频

本文关键字:于词频 词频 编辑距离 | 更新日期: 2023-09-27 17:54:05

我需要一个具有以下规格的拼写检查器:

  • 非常可伸缩。
  • 能够为建议的单词设置最大编辑距离。
  • 根据提供的单词频率(最常见的单词优先)获得建议。

我看了看Hunspell:
我在男人身上找到了参数MAXDIFF,但似乎没有像预期的那样工作。也许我用错了方法

文件 t。等于off :

MAXDIFF 1 

文件 dico。dic :

5  
rouge  
vert  
bleu  
bleue  
orange  

NHunspell.Hunspell h = new NHunspell.Hunspell("t.aff", "dico.dic");
List<string> s = h.Suggest("bleuue");

返回相同的东西t.aff是否为空:

bleue
bleu

最大编辑距离和建议基于词频

我们决定使用Apache Solr,这正好满足了我们的需求。
解释清楚http://wiki.apache.org/solr/SpellCheckComponent

maxdiff = 1应该返回几个,但仍然可以返回多个。

即使maxdiff为零也可以给出多个结果,但它应该降低变化。这取决于n元。尝试maxdiff的结果小于0,但这仍然不能保证您将得到一个建议。

对于您对最频繁的单词进行排序的需求,Google ngram语料库是公开可用的。