Htmlagilitypack解析链接和内部文本
本文关键字:内部 文本 链接 Htmlagilitypack | 更新日期: 2023-09-27 18:04:24
我是新来的htmlagilitypack,我试图找出一种方法,我将能够从这样的HTML设置获得链接
<div class="std"><div style="border-right: 1px solid #CCCCCC; float: left; height: 590px; width: 190px;"><div style="background-color: #eae3db; padding: 8px 0 8px 20px; font-weight: bold; font-size: 13px;">test</div>
<div>
<div style="font-weight: bold; margin: 5px 0 -6px;">FEATURED</div>
<span class="widget widget-category-link"><a href="http://www.href1.com"><span>cat1</span></a></span>
<span class="widget widget-category-link"><a href="http://www.href1.com"><span>cat2</span></a></span>
</div></div>
我还没有在c#中编写任何代码,但我想知道是否有人可以建议什么标签应该指向获得链接和内部文本,当没有HTML ID'。由于
如果您熟悉XPATH,您将能够在html的元素和属性中导航以获得您想要的任何内容。要获得上面的每个href,您可以编写如下代码:
const string xpath = "/div//span/a";
//WebPage below is a string that contains the text of your example
HtmlNode html = HtmlNode.CreateNode(WebPage);
//The following gives you a node collection of your two <a> elements
HtmlNodeCollection items = html.SelectNodes(xpath);
foreach (HtmlNode a in items)
{
if (a.Attributes.Contains("href"))
//Get your value here
{
yourValue = a.Attributes["href"].Value
}
}
注意:我没有运行或测试这段代码