需要帮助构建“机器人”;从HTTP请求中提取数据
本文关键字:机器人 HTTP 请求 数据 提取 帮助 构建 | 更新日期: 2023-09-27 18:11:08
我正在用ASP.net和c#构建一个网站,其中一个组件涉及代表用户登录到用户拥有帐户的网站(例如手机公司),从该网站获取信息并将其存储在我们的数据库中。
我想这个动作叫做"刮"。
是否已经有这样的产品,以便我可以使用它与我的软件集成?
我不需要一个软件来做这件事,我需要某种SDK,我可以集成到我的c#代码。
谢谢,
·库柏
使用HtmlAgilityPack来解析你在登录后从web请求中获得的HTML。
目前我还没有找到合适的产品。
处理这个问题的一种方法是
-自己做请求
-使用http://htmlagilitypack.codeplex.com/从下载的html中提取重要信息
-保存您自己提取的信息
问题是,根据上下文,有很多东西需要调整/配置,你需要非常大的产品,但它仍然无法达到定制解决方案的性能/准确性:
A)多线程控制
B)提取规则
C)持久性控制
D)网络蜘蛛(或如何选择下一个链接解析)
查看Web抓取维基百科条目。
然而,我想说的是,由于我们需要通过网络抓取获得的是特定于应用程序的,大多数时候,从web响应流中抓取你需要的任何东西可能更有效。