从PDF到HTML的转换

本文关键字:转换 HTML PDF | 更新日期: 2023-09-27 18:14:48

是否有一个。dll我可以使用它使用PDF文件作为输入和HTML文件作为输出?我想把PDF转换成HTML。我的同事说,一步一步地从PDF中获取文本/字体/图像/页边距/链接等,然后创建具有相同内容的新HTML文件是非常困难的。他说这几乎是不可能的。所以我在想-如果有一些dll,我可以使用作为参考吗?

从PDF到HTML的转换

写一个程序来做这件事绝对不是一件容易的事。如果你找不到任何。net库来做这件事(我找不到,至少不是免费的),我会下载它并通过编程调用它来获得我的html。

如果您有空闲时间并且/或者PDFToHtml不能为您产生可接受的输出,那么您可以使用iText自己编写程序。这是一个非常成熟的免费pdf库。我以前用过它来操作pdf文件(合并、创建等)。

正如Quandary在评论中所指出的,与iText提供的商业或AGPL许可证相比,PDFSharp库提供了更宽松的许可证(MIT)。在选择图书馆时,请记住这一点。我自己没有使用过PDFSharp库,我不知道它们在功能方面是如何比较的。

您可以下载此免费工具:PDFToHTML

然后在你的程序中fork一个新的进程并运行可执行文件传递PDF文件。

如果你不介意付钱,Aspose提供了一个很好的解决方案,这就是我们公司使用的。

http://www.aspose.com/categories/.net-components/aspose.pdf-for-.net/key-features.aspx