如何使用TikaOnDotNet库从大型excel文件中提取文本

本文关键字:文件 提取 取文本 excel 大型 何使用 TikaOnDotNet | 更新日期: 2023-09-27 17:59:44

我有一些excel文件,我想使用TikaOnDotNet从这些文件中提取文本。这个库正在处理大小小于160MB的所有文件,但当我使用更大的文件时,它显示了这个错误:

类型为'TikaOnDotNet的未处理异常。文本提取。TikaOnDotNet中出现TextExtractionException。TextExtraction.dll附加信息:从文件中提取文本失败

以下是我正在使用的代码:

var a=new TextExtractor().Extract(filename).Text;

有人能解决同样的问题吗?

如何使用TikaOnDotNet库从大型excel文件中提取文本

试试这些:

  • 将NuGets更新到最新版本
  • 在使用Tika方法的同一项目中安装NuGets

我对Tika也有问题:我创建了使用Tika的方法,NuGets被设置到我在主项目中引用的外部PCL中。这导致了错误,我仍然没有找到解决方案。