使用c#从网页中提取磁盘注释

本文关键字:提取 磁盘 注释 网页 使用 | 更新日期: 2023-09-27 18:17:58

我需要在使用disqus评论系统的CNN网站的每个新闻页面中获取用户评论。我使用c#进行html解析。是否有任何特定的代码,我可以使用,以便提取注释的作者和评论使用c#。

提前感谢,Dinusha

使用c#从网页中提取磁盘注释

由于Disqus嵌入是javascript嵌入,除非站点在那里呈现,否则评论将无法在页面源中使用。如果你正在抓取页面并让javascript渲染,那么第一页(最多50条评论)可以在Disqus iFrame的"postCompatContainer"DIV中使用。

但是,我建议使用Disqus API来完成此任务。这里有两个主要部分:

  1. 从文章
  2. 获取线程信息

特别是在页面源代码中,你必须找到变量'disqus_shortname'和'disqus_identifier'或'disqus_url'。如果'disqus_identifier'或'disqus_url'不可用,那么您可以尝试使用窗口位置地址,但这不太可靠。

  1. 使用该数据进行API调用

具体来说,你需要使用我们的threads/listPosts端点,传递'disqus_shortname'作为'论坛',标识符或url分别为'thread=ident:'或'thread=link:'。

我不会在这里讨论使用API的细节,但是我们有一个很好的入门教程:http://help.disqus.com/customer/portal/articles/1131783-tutorial-get-comment-counts-with-the-api

和更多的例子:https://github.com/disqus/DISQUS-API-Recipes