关于网络爬虫性能

本文关键字：爬虫性能网络于网络 | 更新日期: 2023-09-27 17:52:17

我建立了一个robots.txt爬虫，它从机器人中提取url，然后在页面完成后加载一些后期处理的页面。这一切都发生得非常快，我可以每秒从5页中提取信息。

如果一个网站没有robots.txt，我使用Abot网络爬虫代替。问题是Abot比直接的robots.txt爬虫慢得多。似乎当Abot点击一个有很多链接的页面时，它会很慢地安排每个链接。有些页面需要20秒以上的时间来排队并运行上面提到的post进程。

我使用配置为不抓取外部页面的PoliteWebCrawler。我应该一次抓取多个网站，还是有另一个更快的解决方案?

谢谢!

关于网络爬虫性能

为Abot添加了一个补丁来修复这样的问题。应该在nuget版本1.5.1.42中可用。有关详细信息，请参阅问题#134。你能证实这解决了你的问题吗?

是否有可能您正在抓取的站点无法处理大量并发请求?一个快速的测试是打开浏览器，在Abot抓取网站的时候开始点击。如果浏览器明显变慢，那么服务器显示出负载的迹象。

如果是这个问题，您需要通过配置设置来减慢爬行速度。

如果没有，你能给一个网站或页面的url正在缓慢爬行吗?Abot的完整配置也会有所帮助。