Xpath—查找元素的多个顺序出现

本文关键字:顺序 查找 元素 Xpath | 更新日期: 2023-09-27 17:49:41

我有一个需要清理的xhtml节点,包含以下innerText:

<img style="width: 402px; height: 312px;" src="http://www.mydomain.com/test.jpg" align="left" border="0" height="312" hspace="5" vspace="5" width="402"> <br><font size="1" face="Arial"><br><br><br><br><br><br><br><br><br><br><br><br><br><br><br><br><br><br><br><br><br><br><br><br><font face="Verdana">Image text goes here</font> </font>

我无法自己找出返回/找到<br>元素多次出现的xpath表达式。我是否需要在节点中进行递归并检查最后的匹配?

更新:我正在使用HtmlAgilityPack来浏览文档。

提前感谢!

问候,byte_slave

Xpath—查找元素的多个顺序出现

不太确定要用这个做什么。我问过你想把它转换成什么,作为问题& help;

的注释

猜测你可能想做什么& help;

要找出<br/>元素的总数,只需使用XPath count(//descendant-or-self::br)

如果你想处理<br/>旁边的所有<br/>元素你可以使用XPath //descendant-or-self::br[following-sibling::br or preceding-sibling::br]返回<br/>元素的长列表

XPath不起作用,因为这是不是 XHTML。所有的标签都是未闭合的。哎呀,甚至img标签本身也是不完整的…

您需要使用纯文本处理(可能是正则表达式)或HTML杀毒器来清除它。看

xmllint

HTML tidy