需要帮助构建“机器人”;从HTTP请求中提取数据

本文关键字：机器人 HTTP 请求数据提取帮助构建 | 更新日期: 2023-09-27 18:11:08

我正在用ASP.net和c#构建一个网站，其中一个组件涉及代表用户登录到用户拥有帐户的网站(例如手机公司)，从该网站获取信息并将其存储在我们的数据库中。

我想这个动作叫做"刮"。

是否已经有这样的产品，以便我可以使用它与我的软件集成?

我不需要一个软件来做这件事，我需要某种SDK，我可以集成到我的c#代码。

谢谢,

·库柏

需要帮助构建“机器人”;从HTTP请求中提取数据

使用HtmlAgilityPack来解析你在登录后从web请求中获得的HTML。

登录到网站

目前我还没有找到合适的产品。
处理这个问题的一种方法是
-自己做请求
-使用http://htmlagilitypack.codeplex.com/从下载的html中提取重要信息
-保存您自己提取的信息

问题是，根据上下文，有很多东西需要调整/配置，你需要非常大的产品，但它仍然无法达到定制解决方案的性能/准确性:
A)多线程控制
B)提取规则
C)持久性控制
D)网络蜘蛛(或如何选择下一个链接解析)

查看Web抓取维基百科条目。

然而，我想说的是，由于我们需要通过网络抓取获得的是特定于应用程序的，大多数时候，从web响应流中抓取你需要的任何东西可能更有效。