Solr PDF提取工作,但没有索引

本文关键字:索引 PDF 提取 工作 Solr | 更新日期: 2023-09-27 18:06:32

我使用solr提取pdf文件并将其索引。现在我可以用下面的代码提取它:

private static void IndexPDFFile(ISolrOperations<Article> solr)
{
    string filecontent = null;
    using (var file = File.OpenRead(@"C:''cookbook.pdf"))
    {
        var response = solr.Extract(new ExtractParameters(file, "abcd1")
        {
            ExtractOnly = true,
            ExtractFormat = ExtractFormat.Text,
        });
        filecontent = response.Content;
    }
    solr.Commit();
}

但是当我在浏览器中使用以下命令检查solr时,什么也没有出现:

http://berserkerpc:444/solr/select/?q=text:solr

http://berserkerpc:444/solr/select/?q=author:admin

pdf文件的内容是:This is a Solr cookbook…字段author应该包含admin。

在这里输出:

    <response><lst name="responseHeader">
<int name="status">0</int>
<int name="QTime">1</int>
<lst name="params"><str name="q">text:Solr</str></lst></lst><result name="response" numFound="0" start="0"/></response>
对于这个问题有什么建议吗?

谢谢,有望

Solr PDF提取工作,但没有索引

这是因为您在ExtractParameters中设置了ExtractOnly=true。下面是源代码中ExtractOnly参数的注释。

    /// <summary>
    /// If true, return the extracted content from Tika without indexing the document. 
    /// This literally includes the extracted XHTML as a string in the response. 
    /// </summary>
    public bool ExtractOnly { get; set; }

如果要对提取的内容进行索引,则不设置为true