c#试图使用正则表达式将名称从html中分离出来

本文关键字:html 分离出 正则表达式 | 更新日期: 2023-09-27 18:07:47

<a href="||blablabla link||" title="||blablabla title of torrent|| torrent">||THE STRING THAT IM INTERESTED IN--NAMES||</a>

我正在处理一个包含20-30以上格式行的HTML文件!我有兴趣在数组列表中保存所有的NAMES。我的问题是,我不能完全理解正则表达式格式,以获得每个名称我应该使用什么模式?我如何使用这种模式来捕获这个html字符串中的每个名称?

c#试图使用正则表达式将名称从html中分离出来

string html = @"<a href=""/torrent/4353486/Terminator+Genisys+2015+720p+WEBRip+%5BChattChitto+RG%5D.‌​html"" title=""view Terminator Genisys 2015 720p WEBRip [ChattChitto RG] torrent"">Terminator Genisys 2015 720p WEBRip [ChattChitto RG]</a>";
string patten = @"<a's+href=""[^""]*""'s+title=""[^""]*torrent"".*?>([^<]*)</a>";
foreach (Match m in Regex.Matches(html, patten, RegexOptions.IgnoreCase))
{
    Console.WriteLine(m.Groups[1].Value);
}

这是一个例子,我猜你的dom标题必须以torrent

结尾