C# HtmlAgilityPack - Scraping
本文关键字:Scraping HtmlAgilityPack | 更新日期: 2023-09-27 18:32:56
我想使用HtmlAgilityPack从 GSMArena.com 抓取内容,具体来说,我想抓取手机的技术规格。
期望的结果:
http://www.gsmarena.com/nokia_lumia_520-5322.php我想刮掉重量、尺寸等
问题:几乎所有模型之间的节点路径都会有所不同。
我的问题:
我将如何通过搜索来抓取?例如,如果我想抓取产品重量,有没有办法告诉 HTMLAgilityPack 搜索标签,然后转到它后面的 TD,然后抓取该 TD 的内部文本?
XPath 是你的朋友。在这里学习。(如果链接腐烂,只需谷歌XPath 1.0教程)
对于该文档:
string weight= doc.DocumentNode.SelectSingleNode(@"//td[a[contains(text(),'Weight')]]/following-sibling::td").InnerText;
会让你体重。
XPath 的说明:对于所有节点 (//),选择包含文本"权重"的"a"元素的"td"元素,然后选择以下"td"节点。