使用Foxit SDK提取pdf格式的文本

本文关键字:格式 文本 pdf 提取 Foxit SDK 使用 | 更新日期: 2023-09-27 18:21:30

我正在使用Foxit SDK从Pdf文档中提取文本。

一切都还可以,但当我用其他语言而不是英语提取pdf时,我不会得到正确的输出。

我也在java中使用过PDFBox,但这给了我最差的输出,Foxit SDK的输出比PDFBox更好。

有其他图书馆可以解决这个问题吗。。?或者还有其他解决方案。

使用Foxit SDK提取pdf格式的文本

就个人而言,如果你想把它做好,你必须为此付费。ComponentOne有一个用于WPF的PDFViewer。不确定你使用的是什么框架,因为你的标签缺少一个。

用于WPF 的ComponentOne PDF查看器

您可能想尝试Quick PDF Library的试用版,看看它在文档上的表现。http://www.quickpdflibrary.com

对于大多数PDF文件,QP.GetPageText(7)或GetPageText(8)都会返回非常好的结果。

安德鲁。

免责声明:我为Quick PDF Library做一些咨询工作。

如果你在windows上,你可以使用adobe提供的IFilter。我使用了adobe随adobe阅读器8提供的IFilter。这是我使用的确切示例的链接

http://www.codeproject.com/Articles/13391/Using-IFilter-in-C

表现还可以(我想。我没有用过很多其他方法)。一个400页的PDF大约需要15秒。