如何浏览网站和“挖掘信息”

本文关键字:信息 挖掘信息 网站 何浏览 浏览 | 更新日期: 2023-09-27 18:11:55

我想"模拟"一个网站的导航并解析响应。

我只是想确保我在开始之前做一些合理的事情,我看到了两个选项:

    使用WebBrowser类使用HttpWebRequest类

所以我最初的想法是使用HttpWebRequest,只是解析响应。

你们觉得怎么样?

还想问,我使用c#是因为它是我最强大的语言,但是用于从网站中挖掘这些东西的常见语言是什么?

如何浏览网站和“挖掘信息”

如果您开始手动操作,您可能最终会硬编码许多用例。试试Html敏捷包或其他支持xpath表达式的东西。

有很多挖掘和ETL工具在那里为严肃的数据挖掘需求。

对于"用户模拟",我建议使用Selenum web驱动程序或PhantomJS,这要快得多,但在浏览器模拟中有一些限制,而Selenium几乎提供了100%的浏览器功能支持。

如果你要从一个网站上挖掘数据,那么为了对你正在挖掘的网站"有礼貌",你必须首先做一些事情。你必须遵守网站robots.txt中设置的规则,该规则几乎总是位于www.example.com/robots.txt。

然后使用HTML敏捷包遍历网站。

或使用html2xhtml将html文档转换为xhtml。然后使用xml解析器遍历该网站。

记得:

    检查是否有重复的页面。(一般的想法是对每个url上的HTML文档进行散列。查找(超级)带状疱疹
  1. 尊重robots.txt
  2. 从每个页面获取绝对URL
  3. 从您的队列中过滤重复的URL
  4. 跟踪您访问过的url(即。时间戳)
  5. 解析你的html文档并保持您的队列更新。

关键词:robots.txt,绝对URL, html解析器,URL规范化,墨卡托方案。

玩。