正在分析HTML片段
本文关键字:HTML 片段 | 更新日期: 2023-09-27 17:47:46
在C#中解析HTML片段的最佳方法是什么?
就上下文而言,我继承了一个使用大量复合控件的应用程序,这很好,但很多控件都是使用长序列的文字控件呈现的,这相当可怕。我正在尝试将应用程序进行单元测试,我希望对这些控件进行测试,以确定它们是否生成了格式良好的HTML,并在理想的解决方案中验证该HTML。
看看HTMLAgility包。它与.NET XmlDocument类非常兼容,但它对不干净/有效的XHTML的HTML宽容得多。
如果HTML兼容XHTML,则可以使用内置的System.Xml命名空间。
我使用SGMLReader从HTML生成有效的Xml文档,然后使用XPath或XSLT将所需内容解析为其他格式。
您还可以查看HTML Tidy进行HTML解析/清理。我不认为它们有特定的.NET库,但您可能能够通过命令行或IKVM java库来运行二进制文件。