有没有办法使用 NCrawler 提取特定的 html 标签信息

本文关键字：html 标签信息提取 NCrawler 有没有 | 更新日期: 2023-09-27 18:32:31

规格： Win7 64， VS 2010， .NET 4.0， NCrawler 库
我正在编写一个爬虫，它将从在线商店中提取一些数据。该应用程序可以很好地提取URL，我可以正确导航到商店中的每件商品。问题是每个保存产品所有页面数据的"propretyBag"对象都是文本形式，我想知道是否有办法从这个"propertyBag"读取特定标签的内容，如<-description>Text或者有另一种方法可以做到这一点。感谢

你需要

一个像HtmlAgilityPack(http://htmlagilitypack.codeplex.com/(这样的HTML解析器来提取所需的信息。

但我建议使用Abot(https://code.google.com/p/abot/(作为网络爬虫。它是一个积极开发的免费开源网络爬虫，用C#编写。Abot内置了HTML解析器，如HtmlAgilityPack(通过XPath提取元素(和CsQuery(通过CSS选择器提取元素(。