如何使用HTML敏捷包从HTML文件中获取一级元素;c#

本文关键字:HTML 一级 元素 何使用 文件 获取 | 更新日期: 2023-09-27 18:28:10

我想通过使用HTML敏捷包解析HTML文件来获得第一级元素,例如,结果如下:

<html>
  <body>
     <div class="header">....</div>
     <div class="main">.....</div>
     <div class="right">...</div>
     <div class="left">....</div>
     <div class="footer">...</div>
   </body>
</html>

每个都包含其他标签。。。我想提取网站中存在的所有文本,但要单独提取。例如右侧分离、左侧分离、页脚等等…

有人能帮我吗?

谢谢。。。

如何使用HTML敏捷包从HTML文件中获取一级元素;c#

使用HtmlAgilityPack从给定的URL加载网页,然后通过选择正确的相应标签进行解析。

HtmlWeb page = new HtmlWeb();
HtmlDocument doc = new HtmlDocument();
docc = page.Load("http://www.google.com");

如果要选择类名为"header"的特定div,请使用文档对象的DocumentNode属性。

string mainText = doc.DocumentNode.SelectSingleNode("//div[@class='"main'"]").InnerText;

不过,您的HTML中可能有几个标签是"main"类的成员,因此您必须将它们全部选中,然后在集合中进行迭代,或者在选择单个节点时更准确地说。

要获得所有标记的集合表示,即类"main"中的标记,请改用DocumentNode.SelectNodes属性。


我建议你在SO上看看这个问题,那里有一些基础知识和教程链接。

如何使用HTML敏捷包