需要Body标记内的数据,但不需要任何其他标记
本文关键字:不需要 任何 其他 Body 需要 数据 | 更新日期: 2023-09-27 18:12:08
你好,我有一个html格式的简历,我正在使用StreamReader读取文件,我正在使用下面的方法删除标签。
using (StreamReader sr = new StreamReader("''Myfile.html"))
{
String line = sr.ReadToEnd();
string jj = Regex.Replace(line, "<.*?>", String.Empty);
}
工作该死的酷
但是,根据我的要求,我只需要在body标签内的数据。但是没有body标签,里面也没有标签
不要使用Regex进行HTML/XML解析。使用Html/Xml解析器。以下是你不应该使用它的原因。
RegEx匹配开放标签,除了XHTML自包含标签
你能提供一些例子来说明为什么很难用正则表达式解析XML和HTML吗?
可以使用Html Agility pack
将字符串加载到Html文档中这里有一个小的例子如何做到这一点:
public string ReplacePElement()
{
HtmlDocument doc = new HtmlDocument();
doc.Load(htmlFile);
foreach(HtmlNode p in doc.DocumentNode.SelectNodes("body"))
{
}
return doc.DocumentNode.OuterHtml;
}