网络爬虫在没有浏览器的情况下获取基于ajax的链接
本文关键字:获取 ajax 链接 情况下 网络 浏览器 爬虫 | 更新日期: 2023-09-27 17:59:32
是否有一种简单的方法可以执行ajax并检索ajax结果,而不必使用旧方法有自动web浏览器还是没有外部库?有没有一些先进的算法可以做到这一点?
没有。JS代码需要在本地编译,然后在本地执行。
代码:https://svn.arachnode.net/svn/arachnodenet/trunk/Renderer/UN/PW:公共/公共
您可以从SVN客户端获取路径,删除Arachnode.*引用,并使用FAST JavaScript解释器。它使用mshtml.dll,它为AxShDocVw.dll提供动力,该dll为.NET WebBrowser控件提供动力,速度大约是.NET控件的6倍。
https://svn.arachnode.net/svn/arachnodenet/trunk/Renderer/HtmlRenderer.cs是要先仔细阅读的文件。
谢谢,Mike
我不知道在没有任何外部库的情况下有什么方法可以做到这一点,但Htmlunit很好(用java编写),并且有一个c#包装器,你可以在这里尝试:https://github.com/HtmlUnit/NHtmlUnit
试试nutch。一般来说,所有不受robots.txt限制、不需要用户输入的内容都可以通过爬网程序进行爬网。