如何将HTML文本和图像提取/抓取到Windows手机

本文关键字:抓取 Windows 手机 提取 图像 HTML 文本 | 更新日期: 2023-09-27 18:27:46

你好,我想知道,我如何才能在Windows手机的列表(ul,li)中抓取HTML网站的文本。我想做一个rss提要阅读器。请详细说明,我是HTMLAgilityPack的新手。谢谢

如何将HTML文本和图像提取/抓取到Windows手机

这并不像你想象的那么简单。您必须使用HTMLAgility包来解析和规范HTML内容。但是,您需要遍历每个节点,以评估它是否是内容节点,即您希望忽略DIV、嵌入等

我会尽力帮你开始的。

阅读文档

Uri url = new Uri(<Your url>);
HtmlAgilityPack.HtmlWeb web = new HtmlAgilityPack.HtmlWeb();
HtmlAgilityPack.HtmlDocument document = web.Load(url.AbsoluteUri);

以下是如何提取图像和文本标签

var docNode = documentNode;
// if you just want all text withing the document then life is simpler.
string htmlText = docNode.InnerText;
// Get images
IEnumerable<HtmlNode> imageNodes = docNode.Descendants("img");
// Now iterate through all the images and do what you like...

如果你想实现类似Readability/Instapaper的清理,请从下载NReadabilityhttps://github.com/marek-stoj/NReadability