如何在c#中提取Apache FOP创建的PDF
本文关键字:FOP 创建 PDF Apache 提取 | 更新日期: 2023-09-27 18:10:14
我的c#项目有一个问题。我想在没有任何第三方应用程序的情况下以编程方式提取Apache FOP生成的PDF文件。我尝试使用许多库,如PDFBox, IKVM, PDF2Text, ITextSharp, PDFSharp来提取PDF文件,但失败了。当我将FOP生成的PDF提取到文本文件时,我得到了许多方形符号和其他纠缠字符。
我的问题是,我如何在c#中提取FOP生成的PDF文件?有任何库(写为c#),可以做到这一点吗?
谢谢。
使用Identity-H编码的字体直接使用字形索引在页面上显示文本。为了支持文本提取,这些字体需要在字体字典(在PDF文件中)中有一个ToUnicode条目,否则是不可能的。检查Apache FOP,看看它是否有一个设置,用于在字体字典中包含ToUnicode条目,或者用于使字体提取友好。