使用 iTextSharp 从 PDF 中提取文本不适用于某些 PDF

本文关键字：PDF 适用于不适用取文本提取 iTextSharp 使用 | 更新日期: 2023-09-27 18:32:16

我使用以下代码使用 iTextSharp 从 PDF 文件的第一页中提取文本：

public static string ExtractTextFromPDFFirstPage(string fileName)
{
    string text = null;
    using (var pdfReader = new PdfReader(fileName))
    {
        ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
        text = PdfTextExtractor.GetTextFromPage(pdfReader,1,strategy);
        text = Encoding.UTF8.GetString(Encoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(text)));
    }
    return text;
}

它适用于许多PDF，但不适用于其他一些PDF。

工作 PDF ： http://data.hexagosoft.com/LFBO.pdf

不工作 PDF ： http://data.hexagosoft.com/LFBP.pdf

这两个PDF似乎非常相似，但一个有效，另一个无效。我想他们的生产者标签不一样的事实是这里的一个线索。另一个线索是，此功能适用于没有图表的 PDF 的任何其他页面。

我也尝试过用ghostscipt，但没有成功。

编码行似乎也没用。

如何使用 iTextSharp 提取非工作 PDF 第一页的文本？

谢谢

使用 iTextSharp 从 PDF 中提取文本不适用于某些 PDF

这两个文档都在其编码/差异数组中使用带有非官方字形名称的字体，并且都不使用 ToUnicode 映射。字形命名似乎有些直截了当：MT 前缀后面的数字是所用字形的 ASCII 代码。

第一个文档有效，因为映射根本没有更改，iText 将使用默认编码（我猜）：

/Differences[65/MT65/MT66/MT67 71/MT71/MT72/MT73 76/MT76 78/MT78 83/MT83]

另一个文档确实更改了映射：

/Differences [2 /MT76 /MT105 /MT103 /MT104 /MT116 /MT110 /MT32 /MT97 /MT100 /MT115 /MT58 ]

这意味着：例如，字符代码 2 应映射到名为 MT76 的字形，这是 iText 不知道的非正式/私有字形名称，因此它没有更多信息，只有字符代码 2，并将使用此代码作为最终结果（我猜）。

如果不实现以 MT 为前缀的字形名称的逻辑，就不可能从本文档中获取正确的文本。无论如何，没有任何地方定义以 MT 开头后跟整数的字形名称可以映射到 ASCII 值......这只是偶然的，或者由字体设计器/创建工具实现，无论它来自哪里。

第 2 个 PDF （LFBP.pdf）包含从字形到文本的错误映射，即您看到正确的字形，但在生成此 PDF 期间由于某种原因文本表示未正确编码。如果你有很多这样的文件，那么工作方法可能是：

通过搜索应该出现在每个页面上的一些短语（例如"服务"）来检测损坏的页面，同时提取文本
使用 OCR 和 Tesseract 和 .NET Wraper 等工具分别处理这些页面