关于网络爬虫性能

本文关键字:爬虫 性能 网络 于网络 | 更新日期: 2023-09-27 17:52:17

我建立了一个robots.txt爬虫,它从机器人中提取url,然后在页面完成后加载一些后期处理的页面。这一切都发生得非常快,我可以每秒从5页中提取信息。

如果一个网站没有robots.txt,我使用Abot网络爬虫代替。问题是Abot比直接的robots.txt爬虫慢得多。似乎当Abot点击一个有很多链接的页面时,它会很慢地安排每个链接。有些页面需要20秒以上的时间来排队并运行上面提到的post进程。

我使用配置为不抓取外部页面的PoliteWebCrawler。我应该一次抓取多个网站,还是有另一个更快的解决方案?

谢谢!

关于网络爬虫性能

为Abot添加了一个补丁来修复这样的问题。应该在nuget版本1.5.1.42中可用。有关详细信息,请参阅问题#134。你能证实这解决了你的问题吗?

是否有可能您正在抓取的站点无法处理大量并发请求?一个快速的测试是打开浏览器,在Abot抓取网站的时候开始点击。如果浏览器明显变慢,那么服务器显示出负载的迹象。

如果是这个问题,您需要通过配置设置来减慢爬行速度。

如果没有,你能给一个网站或页面的url正在缓慢爬行吗?Abot的完整配置也会有所帮助。