从评论中提取可能出现或不出现在粗体标记之间的用户名
本文关键字:之间 用户 提取 评论 | 更新日期: 2023-09-27 18:20:02
我想从评论中提取可能出现在粗体HTML标记之间也可能不出现的用户名,那么我如何获得用户名呢?
这是HTML源代码
<li class="uname2">Ajmeerajee</li>
<li class="uname"><b>naqvi.mn</b></li>
我想提取用户名:
Ajmeerajee
naqvi.mn
那么这个的正则表达式是什么呢?
不建议使用正则表达式来解析HTML,HTML对RE.来说太复杂了
如果HTML标记格式良好,则可以将其加载为XML,并使用xpath查找li
元素的文本。下面是一个代码示例:
XmlDocument doc = new XmlDocument();
string xmlString = @"<ul><li class=""uname2"">Ajmeerajee</li><li class=""uname"" ><b>naqvi.mn</b></li></ul>";
doc.LoadXml(xmlString);
XmlElement root = doc.DocumentElement;
XmlNodeList nodeList = root.SelectNodes("//ul/li");
foreach (XmlNode node in nodeList)
Console.WriteLine(node.InnerText);
如果您将其加载为XML,您可以通过它进行解析。