有没有办法使用 NCrawler 提取特定的 html 标签信息

本文关键字:html 标签 信息 提取 NCrawler 有没有 | 更新日期: 2023-09-27 18:32:31


规格: Win7 64, VS 2010, .NET 4.0, NCrawler 库
我正在编写一个爬虫,它将从在线商店中提取一些数据。该应用程序可以很好地提取URL,我可以正确导航到商店中的每件商品。问题是每个保存产品所有页面数据的"propretyBag"对象都是文本形式,我想知道是否有办法从这个"propertyBag"读取特定标签的内容,如<-description>Text或者有另一种方法可以做到这一点。感谢

有没有办法使用 NCrawler 提取特定的 html 标签信息

你需要

一个像HtmlAgilityPack(http://htmlagilitypack.codeplex.com/(这样的HTML解析器来提取所需的信息。

但我建议使用Abot(https://code.google.com/p/abot/(作为网络爬虫。它是一个积极开发的免费开源网络爬虫,用C#编写。Abot内置了HTML解析器,如HtmlAgilityPack(通过XPath提取元素(和CsQuery(通过CSS选择器提取元素(。