Lucene.Net 在分词器中包含连字符
本文关键字:包含 连字符 分词 Net Lucene | 更新日期: 2023-09-27 18:37:12
在Lucene中,我希望索引产品 - 据我了解,诸如T恤之类的单词被标记为"t"和"shirt"。
我希望搜索"衬衫"与 T 恤不匹配 - 即 - 将"T 恤"视为单个标记。
实现这一目标的最简单方法是什么?
干杯。
您可以更新StandardTokenizer
的规则并创建自定义规则。
为此,通过更改原始规则,使用 JFlex 重新生成 StandardTokenizerImpl 类。(您需要将输出转换为 c#)
然后获取 StandardTokenizer 的代码,并将其更改为使用 JSFlex 中新生成的 TokenizerImpl。
如果您不需要 StandardTokenizer 中的现有规则,您也可以尝试使用 WhiteSpaceTokenizer。