建议 - C#/.NET 链接抓取/Web 爬网程序框架

本文关键字:程序 框架 Web 链接 NET 建议 抓取 | 更新日期: 2023-09-27 18:36:39

我正在寻找 C# 中的网络爬虫或链接抓取器的实现,我可以对其进行修改以满足我们的需求。我们需要一些可以按需运行的东西来抓取我们的网站列表,以留意某些链接。蜘蛛不需要存储网站的副本,下载图像或类似的东西 - 它只需要报告链接到某些与一小部分子字符串匹配的网站的任何页面。

我见过像 arachnode.net 这样的爬虫实现(以及无数其他示例),但它们都包含大量围绕保存内容的代码。我们不需要这样做。我们只需要解析出链接的每个页面,并报告任何包含满足特定条件的链接的页面(这将是一个简单的子字符串匹配)。

任何人都可以推荐一个可以帮助我入门的框架或示例吗?似乎有很多方法可以做到这一点(特别是对于 .NET 4 和 HTML 敏捷包),但由于我们需要定期运行它,因此高性能的线程或并行处理实现很重要。

[编辑]

我可能不清楚 - 这必须在桌面上运行,而不是作为 ASP.Net 网站的一部分。公司拥有的网站跨越许多域、服务器和地理位置,因此它不能成为服务器端解决方案。

建议 - C#/.NET 链接抓取/Web 爬网程序框架

SEO命名空间可以在这里提供帮助吗?WebCrawler类是您要查找的吗:

http://msdn.microsoft.com/en-us/library/microsoft.web.management.seo.crawler.webcrawler(v=VS.90).aspx