适用于 Lucene.NET 的 AzureDirectory 库:编制索引时的性能问题
本文关键字:索引 性能 问题 Lucene NET AzureDirectory 适用于 | 更新日期: 2023-09-27 18:30:41
我正在尝试使用 AzureDirectory 库在 Azure 云存储帐户上存储 Lucene.NET 索引。
我正在使用以下版本:
- Microsoft.Windows.Azure.Storage 4.3.0.0
- Lucene.Net 3.0.3.0
- Lucene.Net.Store.Azure 3.0.5553.21100
并调用以下方法:
public void UpdateDocument(Term keyTerm, Document document, string indexName)
{
using (var analyser = new StandardAnalyzer(LuceneVersion))
{
using (var directory = new AzureDirectory(cloudStorage.GetStorageAccount(), indexName, new RAMDirectory()))
{
using (var indexWriter = new IndexWriter(directory, analyser, true, IndexWriter.MaxFieldLength.UNLIMITED))
{
indexWriter.UpdateDocument(keyTerm, document);
}
}
}
}
当我调用该方法时,即使只有 10 次(来自单元测试),总时间约为 30 秒。
我已经尝试了索引编写器的各种更改,以查看是否可以提高性能,但到目前为止没有任何改进。我尝试更改代码以重用索引编写器和目录类,但最终导致文件锁定。我还想使索引代码远离调用方,以保持 Lucene 的隔离。如果我注释掉indexWriter.UpdateDocument(keyTerm, document);
那么它的响应告诉我这就是缓慢的地方。
想知道我在这里做错了什么还是遗漏了什么?
上面的方法只需要调整以更好地处理资源,因为为每个文档打开目录和索引编写器的成本太高。我调整后的方法工作正常:
public void UpdateDocumentBatch(Term keyTerm, IEnumerable<Document> documents, string indexName)
{
using (var analyser = new StandardAnalyzer(LuceneVersion))
{
using (var directory = new AzureDirectory(cloudStorage.GetStorageAccount(), indexName, new RAMDirectory()))
{
var createIndex = !IndexReader.IndexExists(directory);
using (var indexWriter = new IndexWriter(directory, analyser, createIndex, IndexWriter.MaxFieldLength.UNLIMITED))
{
indexWriter.SetRAMBufferSizeMB(100);
foreach (var document in documents)
{
keyTerm.Text = document.GetField(keyTerm.Field).StringValue;
indexWriter.UpdateDocument(keyTerm, document);
}
indexWriter.Commit();
}
}
}
}