获取谷歌搜索结果';现场位置

本文关键字:现场 位置 谷歌 搜索结果 获取 | 更新日期: 2023-09-27 18:27:41

我想编写一些算法或解析器,它们应该在谷歌搜索结果中获得站点位置。问题是每次谷歌页面布局会改变时,我都应该纠正/更改算法。你认为男人是如何经常改变的?关于确定谷歌的网站位置,有什么技巧/建议/窍门吗?

如何制定稳健的位置检测算法?

为此,我想使用C#、.NET 2.0和HtmlAgilityPack。如有任何建议,我们将不胜感激。提前谢谢,伙计们!


发布更新

我知道谷歌会显示captcha来防止机器查询。我得到了特别的服务,可以认出任何一位队长。你们能告诉我你们在精确刮削结果方面的经验吗?

获取谷歌搜索结果';现场位置

谷歌提供了大量的API来访问他们的服务。对于搜索,有自定义搜索API。

一年前我问过这个问题,得到了一些不错的答案。毫无疑问,敏捷包是最好的选择。

最后,我们编译了一个粗糙的scraper,它完成了任务,运行没有任何问题。我们对谷歌的打击相对较小(每天大约有25次查询)。我们采取了以下预防措施:1)顺序随机化,2)一天中的时间随机化,3)查询之间暂停的时间随机化。我不知道这些是否有帮助,但我们从未被一名队长击中。

我们现在不太在意它了。

其主要弱点是:

  • 我们只检查了第一个页面(我们可能已经编码了一个增强版,可以查看前X个页面,但可能会有更高的风险——被谷歌检测到)。

  • 它的结果是不可靠的,而且到处都是。你可能在几周内每天都是第8名,除非你是第3名时有一天是随机的。可能每天或每周仔细阅读并记录我们的排名的想法太有缺陷了

为了回答你关于谷歌破坏你的代码的问题:在我们运行的所有几个月里,谷歌并没有做出根本性的改变,但他们改变了一些东西,破坏了我们保存的结果的"快照"(也许是CSS更改?),这对提高结果的可信度毫无帮助。

我们几个月前就经历了这个过程。我们尝试了上面提到的API,结果甚至与实际搜索结果不接近。(谷歌搜索大量信息)。

删除页面是个问题,谷歌似乎每隔几个月就会更改一次标记,并进行检查以确定你是否是人。

我们最终放弃了,选择了一种商用(并且经常更新)的试剂盒。

我已经为此编写了几个项目,解析有机结果和广告词结果。HTML敏捷包无疑是一个不错的选择。

我想我每3分钟运行一次查询,但从未触发CAPTCHA。

关于格式的更改,我发现了UL的ID(在这里根据记忆说话),大约一年才更改一次(有机词和广告词)。

如上所述,谷歌并不喜欢你这样做!:-)

我敢肯定你不会轻易访问谷歌搜索结果。他们不断地试图阻止人们这样做

如果考虑到屏幕抓取,请注意他们将开始显示captcha,你将什么都得不到。