htmlagilitypack未加载页面的全部内容
本文关键字:全部 加载 htmlagilitypack | 更新日期: 2023-09-27 18:27:50
我需要筛选一个具有给定URL的网站。当我尝试加载页面的内容时http://cks.nice.org.uk/?char=B,我用class="list wrapper"获取div中除链接(锚元素)外的所有内容(在下面的doc对象中)
有什么想法吗?感谢
using System;
using HtmlAgilityPack;
public partial class _Default : System.Web.UI.Page
{
protected void Page_Load(object sender, EventArgs e)
{
HtmlWeb web = new HtmlWeb();
HtmlDocument doc = null;
doc = web.Load("http://cks.nice.org.uk/?char=B");
}
}
我一般不熟悉HtmlAgilityPack或C#,但我可以从抓取的角度告诉你我会做什么。
您需要获取的文档是http://cks.nice.org.uk/js/topics.txt它提供了一个很好的主题名称及其URL的JSON结构。分析一下,你会看到一个对象数组,比如:
{"Title":"Achilles tendinopathy","Slug":"achilles-tendinopathy","Specialities":["Injuries","Musculoskeletal"]},
{"Title":"Acne vulgaris","Slug":"acne-vulgaris","Specialities":["Skin and nail"]}
从每个中提取"Slug"并附加到基本URL以获得每个主题页面,例如。http://cks.nice.org.uk/achilles-tendinopathy