在页面完全加载后捕获HTMLDOM——使用服务

本文关键字:HTMLDOM 服务 加载 | 更新日期: 2023-09-27 17:58:09

我们需要加载HTML页面,并在页面执行页面加载脚本并完全加载页面后捕获完整的HTML DOM。这需要是一种基于服务器的方法,因为潜在的容量和在多台机器上分散负载的需要。

我们希望在年做到这一点。NET,而不使用任何视觉控件(如Web浏览器控件),因为这将把我们与STA环境和消息泵联系在一起。

我们可以下载HTML页面,但我们不能等到脚本等完成执行并捕获该阶段的内容。

也许是可能的

  • 使用新Edge库的一部分来捕获DOM将其渲染到画布
  • 可能有一些可用的自定义组件允许我们通过模拟托管环境(又名浏览器)来实现这一点,并允许我们在加载DOM后访问DOM

任何关于解决这个问题的信息都将不胜感激,即使我们需要离开。NET世界。

在页面完全加载后捕获HTMLDOM——使用服务

这听起来像是网络爬虫中包含的功能。可以使用Abot。

最终偶然发现了PhantomJS的C#包装器,看起来它应该能帮我。