如何浏览网站和“挖掘信息”

本文关键字：信息挖掘信息网站何浏览浏览 | 更新日期: 2023-09-27 18:11:55

我想"模拟"一个网站的导航并解析响应。

我只是想确保我在开始之前做一些合理的事情，我看到了两个选项:

使用WebBrowser类使用HttpWebRequest类

所以我最初的想法是使用HttpWebRequest，只是解析响应。

你们觉得怎么样?

还想问，我使用c#是因为它是我最强大的语言，但是用于从网站中挖掘这些东西的常见语言是什么?

如何浏览网站和“挖掘信息”

如果您开始手动操作，您可能最终会硬编码许多用例。试试Html敏捷包或其他支持xpath表达式的东西。

有很多挖掘和ETL工具在那里为严肃的数据挖掘需求。

对于"用户模拟"，我建议使用Selenum web驱动程序或PhantomJS，这要快得多，但在浏览器模拟中有一些限制，而Selenium几乎提供了100%的浏览器功能支持。

如果你要从一个网站上挖掘数据，那么为了对你正在挖掘的网站"有礼貌"，你必须首先做一些事情。你必须遵守网站robots.txt中设置的规则，该规则几乎总是位于www.example.com/robots.txt。

然后使用HTML敏捷包遍历网站。

或使用html2xhtml将html文档转换为xhtml。然后使用xml解析器遍历该网站。

记得:

关键词:robots.txt，绝对URL, html解析器，URL规范化，墨卡托方案。

玩。