屏蔽你的网络抓取活动,使其看起来像正常的浏览器冲浪活动

本文关键字:活动 浏览器 看起来 网络 抓取 屏蔽 | 更新日期: 2023-09-27 17:58:21

我正在使用Html敏捷包,但我一直收到这个错误。某些页面上的"远程服务器返回错误:(500)内部服务器错误。"。

现在我不确定这是什么,因为我可以使用Firefox毫无问题地访问这些页面。

我有一种感觉,网站本身正在屏蔽,没有发送响应。有没有一种方法可以让我的HTML敏捷包调用更像从FireFox调用的调用?

我已经在那里设置了一个计时器,所以它每20秒就会发送到网站。

我还有其他方法可以用吗?

屏蔽你的网络抓取活动,使其看起来像正常的浏览器冲浪活动

设置一个类似于常规浏览器的用户代理。用户代理是http客户端(浏览器)传递的http头,用于将自己标识给服务器。

服务器可以通过多种方式检测刮擦,而这实际上只是刮擦器和刮擦器之间的军备竞赛(?),这取决于其中一个或另一个想要访问/保护数据的程度。一些可以帮助你不被发现的东西是:

  1. 确保发送的所有http头与普通浏览器相同,尤其是用户代理和url引用器
  2. 按照浏览器的顺序,像普通浏览器一样下载所有图像和css脚本
  3. 确保设置的任何cookie都会随后续请求一起发送
  4. 确保根据网站robots.txt抑制请求
  5. 确保你没有关注任何禁止关注的链接,因为服务器可能正在设置一个蜜罐,在那里他们停止为你的ip请求提供服务
  6. 获取一堆代理服务器来更改您的ip地址
  7. 确保网站没有因为他们认为你是机器人而开始向你发送captcha

同样,根据服务器设置的复杂程度,列表可能会继续。