Solr PDF提取工作,但没有索引
本文关键字:索引 PDF 提取 工作 Solr | 更新日期: 2023-09-27 18:06:32
我使用solr提取pdf文件并将其索引。现在我可以用下面的代码提取它:
private static void IndexPDFFile(ISolrOperations<Article> solr)
{
string filecontent = null;
using (var file = File.OpenRead(@"C:''cookbook.pdf"))
{
var response = solr.Extract(new ExtractParameters(file, "abcd1")
{
ExtractOnly = true,
ExtractFormat = ExtractFormat.Text,
});
filecontent = response.Content;
}
solr.Commit();
}
但是当我在浏览器中使用以下命令检查solr时,什么也没有出现:
http://berserkerpc:444/solr/select/?q=text:solr
或
http://berserkerpc:444/solr/select/?q=author:admin
pdf文件的内容是:This is a Solr cookbook…字段author应该包含admin。
在这里输出:
<response><lst name="responseHeader">
<int name="status">0</int>
<int name="QTime">1</int>
<lst name="params"><str name="q">text:Solr</str></lst></lst><result name="response" numFound="0" start="0"/></response>
对于这个问题有什么建议吗?谢谢,有望
这是因为您在ExtractParameters
中设置了ExtractOnly=true
。下面是源代码中ExtractOnly参数的注释。
/// <summary>
/// If true, return the extracted content from Tika without indexing the document.
/// This literally includes the extracted XHTML as a string in the response.
/// </summary>
public bool ExtractOnly { get; set; }
如果要对提取的内容进行索引,则不设置为true