使用xml打开HTML文档.加载

本文关键字:文档 加载 HTML 打开 xml 使用 | 更新日期: 2023-09-27 18:00:54

我想打开一个HTML文档(作为从StreamReader、web检索的字符串(,通过以下方式创建XMLDocument:

XmlDocument doc = new XmlDocument
doc.Load(string containing the retrieved document).

但由于HTML文档包含以下标题:

 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd" > 

它告诉我文件无效。。。有办法解决这个问题吗?

使用xml打开HTML文档.加载

普通html,即使是有效的html,也是无效的xml。

有一个名为HtmlAgilityPack的库,它是一个流行的第三方开源库,您可以使用它来解决这个问题:

  • http://www.google.co.uk/search?q=htmlagilitypack
  • 如何使用HTML敏捷包

如果您确信HTML是有效的XML,我想您可以简单地用XML头替换HTML头。

首先必须验证XHTML是否是有效的XHTML文档(这意味着它也是有效的XML文档(。

将XHTML代码粘贴到此处并查看输出。http://validator.w3.org/#validate_by_input

祝你好运!。

可以使用HTML Tidy Tidy.NET来实现这一点。