为弹性搜索指定并使用带有C#NEST客户端的NGramTokenizer

本文关键字:C#NEST 客户端 NGramTokenizer 搜索 | 更新日期: 2023-09-27 18:25:31

更新以显示工作样本

我试图在ElasticSearch中对一组用户名进行部分搜索。

四处搜索为我指明了nGram Tokenizer的方向,但我对正确的实现感到困惑,没有得到任何结果。

这是从我正在进行的项目中剥离的相关代码

我尝试过不同的组合和搜索类型,但都无济于事。

设置.cs

var client = new ElasticClient(settings.ConnectionSettings);
// (Try and) Setup the nGram tokenizer.
var indexSettings = new IndexSettings();
var custonAnalyzer = new CustomAnalyzer();
customAnalyzer.Tokenizer = "mynGram";
customAnalyzer.Filter = new List<string> { "lowercase" };
indexSettings.Analysis.Analyzers.Add("mynGram", customAnalyzer);
indexSettings.Analysis.Tokenizers.Add("mynGram", new NGramTokenizer
                                                    {
                                                        MaxGram = 10,
                                                        MinGram = 2
                                                    });
client.CreateIndex(settings.ConnectionSettings.DefaultIndex, indexSettings);
client.MapFromAttributes<Profile>();
// Create and add a new profile object.
var profile = new Profile
                  {
                      Id = "1",
                      Username = "Russell"
                  };

client.IndexAsync(profile);
// Do search for object
var s = new SearchDescriptor<Profile>().Query(t => t.Term(c => c.Username, "russ"));
var results = client.Search<Profile>(s);

Profile.cs

public class Profile
{
    public string Id { get; set; }
    [ElasticProperty(IndexAnalyzer = "mynGram")]
    public string Username { get; set; }
}

任何提示都将不胜感激。

为弹性搜索指定并使用带有C#NEST客户端的NGramTokenizer

从nGram令牌过滤器上的es文档中了解这一点:

    "settings" : {
        "analysis" : {
            "analyzer" : {
                "my_ngram_analyzer" : {
                    "tokenizer" : "my_ngram_tokenizer"
                }
            },
            "tokenizer" : {
                "my_ngram_tokenizer" : {
                    "type" : "nGram",
                    "min_gram" : "2",
                    "max_gram" : "3",
                    "token_chars": [ "letter", "digit" ]
                }
            }
        }
    }

需要注意的几点

  1. 您需要将mynGram添加到分析器中,否则它将不会被使用。他们的工作方式是这样的。每个索引字段都应用了一个分析器,分析器是一个令牌化器,后面是零个或多个令牌过滤器。您已经定义了一个很好的nGram令牌化器(mynGram)来使用,但您没有在customAnalyzer中使用它,它正在使用standard令牌化器。(基本上,您只是在定义但从未使用mynGram。)

  2. 您需要告诉elasticsearch在映射中使用customAnalyzer"properties": {"string_field": {"type": "string", "index_analyzer": customAnalyzer" }}

  3. 您应该将maxGram更改为一个更大的数字(可能是10),否则4个字母的搜索将不会完全自动完成(或者可能什么都不返回,这取决于搜索时间分析器)。

  4. 使用_analyzeapi端点来测试分析器。这应该行得通。

    卷曲-XGET'http://yourserver.com:9200?index_name/_analyze?analyzer=customAnalyzer'-d'rlewis'

祝你好运!