如何使用HTML敏捷包从HTML文件中获取一级元素；c#

本文关键字：HTML 一级元素何使用文件获取 | 更新日期: 2023-09-27 18:28:10

我想通过使用HTML敏捷包解析HTML文件来获得第一级元素，例如，结果如下：

<html>
  <body>
     <div class="header">....</div>
     <div class="main">.....</div>
     <div class="right">...</div>
     <div class="left">....</div>
     <div class="footer">...</div>
   </body>
</html>

每个都包含其他标签。。。我想提取网站中存在的所有文本，但要单独提取。例如右侧分离、左侧分离、页脚等等…

有人能帮我吗？

谢谢。。。

如何使用HTML敏捷包从HTML文件中获取一级元素；c#

使用HtmlAgilityPack从给定的URL加载网页，然后通过选择正确的相应标签进行解析。

HtmlWeb page = new HtmlWeb();
HtmlDocument doc = new HtmlDocument();
docc = page.Load("http://www.google.com");

如果要选择类名为"header"的特定div，请使用文档对象的DocumentNode属性。

string mainText = doc.DocumentNode.SelectSingleNode("//div[@class='"main'"]").InnerText;

不过，您的HTML中可能有几个标签是"main"类的成员，因此您必须将它们全部选中，然后在集合中进行迭代，或者在选择单个节点时更准确地说。

要获得所有标记的集合表示，即类"main"中的标记，请改用DocumentNode.SelectNodes属性。

我建议你在SO上看看这个问题，那里有一些基础知识和教程链接。

如何使用HTML敏捷包