XPath/ htmllagilitypack:如何查找具有属性(href)的特定值的元素(a)并查找相邻的表列

本文关键字:查找 元素 属性 htmllagilitypack 何查找 XPath href | 更新日期: 2023-09-27 18:07:33

我非常绝望,因为我不知道如何实现我在问题中所说的。我已经读过无数类似的例子,但没有找到一个在确切情况下有效的例子。那么,假设我有以下代码:

<table><tr>
<td><a href="url-a">text A</a></td><td><a>id A</a></td><td><a>img A</a></td>
<td><a href="url-b">text B</a></td><td><a>id B</a></td><td><a>img B</a></td>
<td><a href="url-c">text C</a></td><td><a>id C</a></td><td><a>img C</a></td>
</tr></table>

现在,我已经有了url-a的一部分。我基本上想知道如何获得id A和img A。我试图用XPath"找到"这一行,但我无法找到使其工作的方法。此外,也有可能信息根本不存在。这是我最近的尝试(说真的,我已经用了3个多小时尝试了很多不同的方法):

if (htmlDoc.DocumentNode.SelectSingleNode(@"/a[contains(@href, 'part-url-a')]") != null)
    string ida = htmlDoc.DocumentNode.SelectSingleNode(@"/a[contains(@href, 'part-url-a')]/following-sibling::a").InnerText;

嗯,这显然是错的,所以如果有人能帮我解决这个问题,我会很高兴的。另外,如果有人能给我指出一些网站,用这样的例子详细解释XPath和符号/语法,我将不胜感激。书籍也欢迎。

PS:我知道我可以在没有XPath的情况下实现我的目标,也可以使用Regex或c#中简单的StreamReader并检查每行是否包含我需要的内容,但是a)对于我的需求来说太脆弱了,因为代码可能有突然的换行,b)我真的想保持一致,完全坚持使用XPath对于我在这个项目中所做的任何事情。

提前感谢您的帮助!

XPath/ htmllagilitypack:如何查找具有属性(href)的特定值的元素(a)并查找相邻的表列

使用以下XPath表达式:

   /*/tr/td[a[@href='url-a']]
                /following-sibling::td[1]
                     /a/text()

根据提供的(格式错误但已更正的)XML文档计算时:

<table><tr>
<td><a href="url-a">text A</a></td><td><a>id A</a></td><td><a>img A</a></td>
<td><a href="url-b">text B</a></td><td><a>id B</a></td><td><a>img B</a></td>
<td><a href="url-c">text C</a></td><td><a>id C</a></td><td><a>img C</a></td>
</tr></table>

想要的文本节点被选中:

id A
类似地,XPath表达式:
   /*/tr/td[a[@href='url-a']]
                /following-sibling::td[2]
                     /a/text()

在对相同的XML文档(如上)求值时,选择另一个想要的文本节点:

img A

基于xslt验证:

当此转换应用于XML文档(如上)时:

<xsl:stylesheet version="1.0"
 xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
 <xsl:output omit-xml-declaration="yes" indent="yes"/>
 <xsl:template match="/">
  <xsl:copy-of select=
   "/*/tr/td[a[@href='url-a']]
                /following-sibling::td[1]
                     /a/text()"/>
  <xsl:text>&#10;</xsl:text>
  <xsl:copy-of select=
   "/*/tr/td[a[@href='url-a']]
                /following-sibling::td[2]
                     /a/text()"/>
 </xsl:template>
</xsl:stylesheet>

产生想要的结果:

id A
img A

您有一个严重损坏的HTML与不匹配的关闭td标记。请把它们修好。这是一张丑陋的图片。

这是说,希望Html敏捷包可以处理任何垃圾,你扔在它,所以这里是如何继续和解析垃圾你有和找到idimg值给定的href:

class Program
{
    static void Main()
    {
        var doc = new HtmlDocument();
        doc.Load("test.html");
        var anchor = doc.DocumentNode.SelectSingleNode("//a[contains(@href, 'url-a')]");
        if (anchor != null)
        {
            var id = anchor.ParentNode.SelectSingleNode("following-sibling::td/a");
            if (id != null)
            {
                Console.WriteLine(id.InnerHtml);
                var img = id.ParentNode.SelectSingleNode("following-sibling::td/a");
                if (img != null)
                {
                    Console.WriteLine(img.InnerHtml);
                }
            }
        }
    }
}