如何在bot(网络爬虫)中以编程方式点击网页上的按钮

本文关键字:方式点 编程 网页 按钮 bot 网络 爬虫 | 更新日期: 2023-09-27 17:57:38

我想建立一个机器人-网络爬虫-来收集电话号码。

不过,我有一个问题:要查看电话号码,用户必须单击"显示"之类的按钮。我该如何解决这个问题?

如何在bot(网络爬虫)中以编程方式点击网页上的按钮

检查点击按钮的行为。它会调用Javascript函数吗?这会对后端进行HTTP调用吗?如果是这样的话,你的机器人应该调用,而不是屏幕抓取第一页。如果不是,它是否只是利用页面的DOM在屏幕上显示一个项目?

您要查找的所有数据都来自某种后端,因此,如果您在浏览页面时查看浏览器的开发人员工具,您通常可以找出对脚本的调用,以获取数据。

这可能会让这件事变得更难(这就是一些网站保护自己免受刮擦的原因)。通常,如果你处于这种情况,你所做的并不完全合法或友好。但从技术上讲,这很有趣,所以开始吧。

最好的方法是在真实的浏览器(如PhantomJS或Chrome)中运行网站,并使用Webdriver等框架来模拟浏览器交互。通过这种方式,您通常可以提取大部分数据。

如果你发现你的ip被屏蔽了,你可以使用Tor并动态使用多个实例来访问网站。。。当然,如果你被允许这样做的话,一定要善意地询问网站所有者。