Lucene.Net 在分词器中包含连字符

本文关键字:包含 连字符 分词 Net Lucene | 更新日期: 2023-09-27 18:37:12

在Lucene中,我希望索引产品 - 据我了解,诸如T恤之类的单词被标记为"t"和"shirt"。

我希望搜索"衬衫"与 T 恤不匹配 - 即 - 将"T 恤"视为单个标记。

实现这一目标的最简单方法是什么?

干杯。

Lucene.Net 在分词器中包含连字符

您可以更新StandardTokenizer的规则并创建自定义规则。

为此,通过更改原始规则,使用 JFlex 重新生成 StandardTokenizerImpl 类。(您需要将输出转换为 c#)

然后获取 StandardTokenizer 的代码,并将其更改为使用 JSFlex 中新生成的 TokenizerImpl。

如果您不需要 StandardTokenizer 中的现有规则,您也可以尝试使用 WhiteSpaceTokenizer。