检索Html标签的内部文本

本文关键字:内部 文本 标签 Html 检索 | 更新日期: 2023-09-27 18:07:10

我有一个包含html的字符串。在这个字符串里面有一个html标签我想要检索它的内部文本。我如何在c#中做到这一点?

这里是html标签,其内部文本我要检索:

<td width="100%" class="container">

检索Html标签的内部文本

使用Html敏捷包


编辑像这样(未测试)

HtmlDocument doc = new HtmlDocument();
string html = /* whatever */;
doc.LoadHtml(html);
foreach(HtmlNode td in doc.DocumentElement.SelectNodes("//td[@class='container']")
{
    string text = td.InnerText;
    // do whatever with text
}

还可以使用不同的XPath选择器直接选择文本。


相关问题:

  • 如何使用HTML敏捷包
  • InnerHTML
  • 中的htmllagilitypack解析
  • c#: htmllagilitypack提取内部文本

try with regex.

public string GetInnerTextFromHtml(string htmlText)
{
    //Match any Html tag (opening or closing tags) 
    // followed by any successive whitespaces
    //consider the Html text as a single line
    Regex regex = new Regex("(<.*?>''s*)+", RegexOptions.Singleline);
    
    // replace all html tags (and consequtive whitespaces) by spaces
    // trim the first and last space
    string resultText = regex.Replace(htmlText, " ").Trim();
    return resultText;
}