解析HTML-获取文本最多的段落

本文关键字:段落 取文本 HTML- 获取 解析 | 更新日期: 2023-09-27 18:25:49

我正在尝试解析一个HTML页面(该页面并不为人所知,而且经常更改,但它们总是新闻网站)。基本上,我需要从网站上下载的一堆代码中提取新闻,我正试图用这样的正则表达式来完成:

Match m = Regex.Match(x.Result, @"<p>(.+?)</p>");

明显的坏主意-它删除了任何标记为段落的内容。

有什么更好的方法可以从网站上提取与代码分离的新闻文章或大量文本吗?

解析HTML-获取文本最多的段落

好吧,这可能不是你想要的(你还没有提供很多细节),但你可以用一对简单的正则表达式从一个页面中去除所有标签。

删除javascript和CSS:

<(script|style).*?</'1>

删除标签

<.*?>

这要归功于现有的答案。剩下的就是页面上的"纯文本"。