如何使用HTML敏捷包从HTML文件中获取一级元素;c#
本文关键字:HTML 一级 元素 何使用 文件 获取 | 更新日期: 2023-09-27 18:28:10
我想通过使用HTML敏捷包解析HTML文件来获得第一级元素,例如,结果如下:
<html>
<body>
<div class="header">....</div>
<div class="main">.....</div>
<div class="right">...</div>
<div class="left">....</div>
<div class="footer">...</div>
</body>
</html>
每个都包含其他标签。。。我想提取网站中存在的所有文本,但要单独提取。例如右侧分离、左侧分离、页脚等等…
有人能帮我吗?
谢谢。。。
使用HtmlAgilityPack从给定的URL加载网页,然后通过选择正确的相应标签进行解析。
HtmlWeb page = new HtmlWeb();
HtmlDocument doc = new HtmlDocument();
docc = page.Load("http://www.google.com");
如果要选择类名为"header
"的特定div
,请使用文档对象的DocumentNode
属性。
string mainText = doc.DocumentNode.SelectSingleNode("//div[@class='"main'"]").InnerText;
不过,您的HTML中可能有几个标签是"main"类的成员,因此您必须将它们全部选中,然后在集合中进行迭代,或者在选择单个节点时更准确地说。
要获得所有标记的集合表示,即类"main
"中的标记,请改用DocumentNode.SelectNodes
属性。
我建议你在SO上看看这个问题,那里有一些基础知识和教程链接。
如何使用HTML敏捷包