需要Body标记内的数据,但不需要任何其他标记

本文关键字:不需要 任何 其他 Body 需要 数据 | 更新日期: 2023-09-27 18:12:08

你好,我有一个html格式的简历,我正在使用StreamReader读取文件,我正在使用下面的方法删除标签。

using (StreamReader sr = new StreamReader("''Myfile.html"))
                {
                    String line = sr.ReadToEnd();
                    string jj = Regex.Replace(line, "<.*?>", String.Empty);
    }

工作该死的酷

但是,根据我的要求,我只需要在body标签内的数据。但是没有body标签,里面也没有标签

需要Body标记内的数据,但不需要任何其他标记

不要使用Regex进行HTML/XML解析。使用Html/Xml解析器。以下是你不应该使用它的原因。

RegEx匹配开放标签,除了XHTML自包含标签

你能提供一些例子来说明为什么很难用正则表达式解析XML和HTML吗?

可以使用Html Agility pack

将字符串加载到Html文档中

这里有一个小的例子如何做到这一点:

public string ReplacePElement() 
{
    HtmlDocument doc = new HtmlDocument();
    doc.Load(htmlFile);
    foreach(HtmlNode p in doc.DocumentNode.SelectNodes("body"))
    {
    }
    return doc.DocumentNode.OuterHtml;
}