Java 从无效的 HTML 创建 PDF 或图像

本文关键字:PDF 图像 创建 HTML 无效 Java | 更新日期: 2023-09-27 18:36:21

我想使用Java从"无效"的HTML文件创建PDF(或任何图像格式[png,jpg,bmp..])。我在谷歌上搜索了一个工具:iText,以及一些使用iText从HTML和Java创建PDF的教程。

在本教程中(X)HTML到PDF与Java,它适用于有效的HTML,我有一个这样的PDF文件。但是,如果我尝试从我的HTML创建PDF,我遇到了一些错误。

首先,我的HTML格式不正确,不幸的是无法更改。我把它上传到这里,W3C 的验证器发现了 28 个错误。

我的选择是:

  • 首先清理并有效我的 HTML 并尽快创建 PDF。
  • 找到另一个工具(适用于我的问题)。
  • 您的建议(使用Java)。
  • 最后一个选项;使用另一个平台(.net,Php,Python等)和从我的应用程序使用 Web 服务。

请帮助我解决这个问题。提前谢谢你

Java 从无效的 HTML 创建 PDF 或图像

您可以使用

像 http://jtidy.sourceforge.net/这样的工具来为您修复 HTML,并根据 jTidy 的输出运行 iText...

尝试wkhtmltopdf .这使用无头浏览器(webkit)首先呈现html,然后生成PDF。我在我的一个 java 项目中使用它并且运行良好。

它提供了一些灵活的命令行选项,这是选项列表及其用法的链接。它也适用于格式不正确的 html。

您可以使用支持损坏 HTML 的 HTML 解析器,例如 jsoup。

像jtidy一样,它可以自动创建有效的HTML,但它也允许你操作HTML DOM,所以你可以尝试按照你想要的方式明确地解决最大的问题。