获取谷歌搜索结果'；现场位置

本文关键字：现场位置谷歌搜索结果获取 | 更新日期: 2023-09-27 18:27:41

我想编写一些算法或解析器，它们应该在谷歌搜索结果中获得站点位置。问题是每次谷歌页面布局会改变时，我都应该纠正/更改算法。你认为男人是如何经常改变的？关于确定谷歌的网站位置，有什么技巧/建议/窍门吗？

如何制定稳健的位置检测算法？

为此，我想使用C#、.NET 2.0和HtmlAgilityPack。如有任何建议，我们将不胜感激。提前谢谢，伙计们！

发布更新

我知道谷歌会显示captcha来防止机器查询。我得到了特别的服务，可以认出任何一位队长。你们能告诉我你们在精确刮削结果方面的经验吗？

获取谷歌搜索结果'；现场位置

谷歌提供了大量的API来访问他们的服务。对于搜索，有自定义搜索API。

一年前我问过这个问题，得到了一些不错的答案。毫无疑问，敏捷包是最好的选择。

最后，我们编译了一个粗糙的scraper，它完成了任务，运行没有任何问题。我们对谷歌的打击相对较小（每天大约有25次查询）。我们采取了以下预防措施：1）顺序随机化，2）一天中的时间随机化，3）查询之间暂停的时间随机化。我不知道这些是否有帮助，但我们从未被一名队长击中。

我们现在不太在意它了。

其主要弱点是：

为了回答你关于谷歌破坏你的代码的问题：在我们运行的所有几个月里，谷歌并没有做出根本性的改变，但他们改变了一些东西，破坏了我们保存的结果的"快照"（也许是CSS更改？），这对提高结果的可信度毫无帮助。

我们几个月前就经历了这个过程。我们尝试了上面提到的API，结果甚至与实际搜索结果不接近。（谷歌搜索大量信息）。

删除页面是个问题，谷歌似乎每隔几个月就会更改一次标记，并进行检查以确定你是否是人。

我们最终放弃了，选择了一种商用（并且经常更新）的试剂盒。

我已经为此编写了几个项目，解析有机结果和广告词结果。HTML敏捷包无疑是一个不错的选择。

我想我每3分钟运行一次查询，但从未触发CAPTCHA。

关于格式的更改，我发现了UL的ID（在这里根据记忆说话），大约一年才更改一次（有机词和广告词）。

如上所述，谷歌并不喜欢你这样做！：-）

我敢肯定你不会轻易访问谷歌搜索结果。他们不断地试图阻止人们这样做

如果考虑到屏幕抓取，请注意他们将开始显示captcha，你将什么都得不到。