如何在c#中提取Apache FOP创建的PDF

本文关键字：FOP 创建 PDF Apache 提取 | 更新日期: 2023-09-27 18:10:14

我的c#项目有一个问题。我想在没有任何第三方应用程序的情况下以编程方式提取Apache FOP生成的PDF文件。我尝试使用许多库，如PDFBox, IKVM, PDF2Text, ITextSharp, PDFSharp来提取PDF文件，但失败了。当我将FOP生成的PDF提取到文本文件时，我得到了许多方形符号和其他纠缠字符。

我的问题是，我如何在c#中提取FOP生成的PDF文件?有任何库(写为c#)，可以做到这一点吗?

谢谢。

使用Identity-H编码的字体直接使用字形索引在页面上显示文本。为了支持文本提取，这些字体需要在字体字典(在PDF文件中)中有一个ToUnicode条目，否则是不可能的。检查Apache FOP，看看它是否有一个设置，用于在字体字典中包含ToUnicode条目，或者用于使字体提取友好。