PDF提取未完成

本文关键字:未完成 提取 PDF | 更新日期: 2023-09-27 18:18:03

我试图从PDF文件中提取文本:http://www.filedropper.com/copy_1,但我从页面中获得的文本不到一半。我使用的是iTextSharp:

PdfReader reader = new PdfReader(file);
string currentText =  PdfTextExtractor.GetTextFromPage(reader, 1);

我已经使用SimpleTextExtractionStrategy以及代替默认的LocationTextExtractionStrategy:

PdfTextExtractor.GetTextFromPage(reader, 1, new SimpleTextExtractionStrategy())

该文件最初是从Microsoft Reporting Service(我没有访问权限)生成的,并且我已经提取了一个页面来测试文本提取。

有人能帮忙吗?

PDF提取未完成

试试这个:-

PdfReader reader = new PdfReader(file);
StringBuilder currentText= new StringBuilder();
for (int i= 1; i <= reader.NumberOfPages; i++)
{
    currentText.Append(PdfTextExtractor.GetTextFromPage(reader, i));
}

,然后对"currentText"执行任何操作