最大编辑距离和建议基于词频
本文关键字:于词频 词频 编辑距离 | 更新日期: 2023-09-27 17:54:05
我需要一个具有以下规格的拼写检查器:
- 非常可伸缩。
- 能够为建议的单词设置最大编辑距离。
- 根据提供的单词频率(最常见的单词优先)获得建议。
我看了看Hunspell:
我在男人身上找到了参数MAXDIFF,但似乎没有像预期的那样工作。也许我用错了方法
文件 t。等于off :
MAXDIFF 1
文件 dico。dic :
5
rouge
vert
bleu
bleue
orange
NHunspell.Hunspell h = new NHunspell.Hunspell("t.aff", "dico.dic");
List<string> s = h.Suggest("bleuue");
返回相同的东西t.aff
是否为空:
bleue
bleu
我们决定使用Apache Solr
,这正好满足了我们的需求。
解释清楚http://wiki.apache.org/solr/SpellCheckComponent
maxdiff = 1应该返回几个,但仍然可以返回多个。
即使maxdiff为零也可以给出多个结果,但它应该降低变化。这取决于n元。尝试maxdiff的结果小于0,但这仍然不能保证您将得到一个建议。
对于您对最频繁的单词进行排序的需求,Google ngram语料库是公开可用的。