Regex字符串问题使纯文本URL可点击

本文关键字:URL 文本 字符串 问题 Regex | 更新日期: 2023-09-27 18:20:10

我需要一个在C#中工作的Regex代码,它可以检测字符串中的纯文本url(https/ftp/ftps),并通过在其周围放置具有相同url的锚标记来使其可点击。我已经制作了一个Regex模式,代码附在下面。

但是,如果输入字符串中已经存在任何可点击的url,则上面的代码会在其上放置另一个锚标记。例如,下面代码中的现有子字符串:string sContent:"ftp://www.abc.com'>ftp://www.abc.com"当下面的代码运行时,它上面有另一个锚标记。有什么方法可以修复它吗?

        string sContent = "ttt <a href='ftp://www.abc.com'>ftp://www.abc.com</a> abc ftp://www.abc.com abbbbb http://www.abc2.com";
        Regex regx = new Regex("(http|https|ftp|ftps)://([''w+?''.''w+])+([a-zA-Z0-9''~''!''@''#''$''%''^''&amp;''*''('')_''-''=''+''''''/''?''.'':'';''''',]*)?", RegexOptions.IgnoreCase);
        MatchCollection mactches = regx.Matches(sContent);
        foreach (Match match in mactches)
        {
            sContent = sContent.Replace(match.Value, "<a href='" + match.Value + "'>" + match.Value + "</a>");
        }

此外,我想要一个Regex代码,使电子邮件可以点击"mailto"标签。我可以自己做,但上面提到的双锚标签问题也会出现在其中。

Regex字符串问题使纯文本URL可点击

我在您的示例测试字符串中注意到,如果字符串中有一个重复的链接,例如ftp://www.abc.com,并且已经链接,那么结果将是双重锚定该链接。您已经拥有的正则表达式和@stema提供的正则表达式可以工作,但您需要以不同的方式替换sContent变量中的匹配项。

下面的代码示例应该提供您想要的内容:

string sContent = "ttt <a href='ftp://www.abc.com'>ftp://www.abc.com</a> abc ftp://www.abc.com abbbbb http://www.abc2.com";
Regex regx = new Regex("(?<!(?:href='|<a[^>]*>))(http|https|ftp|ftps)://([''w+?''.''w+])+([a-zA-Z0-9''~''!''@''#''$''%''^''&amp;''*''('')_''-''=''+''''''/''?''.'':'';''''',]*)?", RegexOptions.IgnoreCase);
MatchCollection matches = regx.Matches(sContent);
for (int i = matches.Count - 1; i >= 0 ; i--)
{
    string newURL = "<a href='" + matches[i].Value + "'>" + matches[i].Value + "</a>";
   sContent = sContent.Remove(matches[i].Index, matches[i].Length).Insert(matches[i].Index, newURL);
}

试试这个

Regex regx = new Regex("(?<!(?:href='|>))(http|https|ftp|ftps)://([''w+?''.''w+])+([a-zA-Z0-9''~''!''@''#''$''%''^''&amp;''*''('')_''-''=''+''''''/''?''.'':'';''''',]*)?", RegexOptions.IgnoreCase);

这应该对你的榜样有效。

(?<!(?:href='|>))是一个负查找,这意味着只有在其前面没有"href='"或">"时,模式才匹配。

有关,请参阅定期出口查询

特别是msdn 上的零宽度负后备断言

在Regexr上看到类似的内容。我不得不从后面的视图中删除替换,但.net应该能够处理它。

更新

为了确保也有(可能)像"<p>ftp://www.def.com</p>"这样的情况得到正确处理,我改进了regex

Regex regx = new Regex("(?<!(?:href='|<a[^>]*>))(http|https|ftp|ftps)://([''w+?''.''w+])+([a-zA-Z0-9''~''!''@''#''$''%''^''&amp;''*''('')_''-''=''+''''''/''?''.'':'';''''',]*)?", RegexOptions.IgnoreCase);

后备(?<!(?:href='|<a[^>]*>))现在正在检查是否没有"href='"或以"开头的标记

测试字符串的输出

ttt <a href='ftp://www.abc.com'>ftp://www.abc.com</a> abc <p>ftp://www.def.com</p> abbbbb http://www.ghi.com

具有此表达式

ttt <a href='ftp://www.abc.com'>ftp://www.abc.com</a> abc <p><a href='ftp://www.def.com'>ftp://www.def.com</a></p> abbbbb <a href='http://www.ghi.com'>http://www.ghi.com</a>

我知道我参加聚会迟到了,但regex有几个问题,现有的答案没有解决。首先也是最令人讨厌的,是反斜杠的森林。如果使用C#的逐字逐句字符串,就不必执行所有的双转义。无论如何,大多数反斜杠一开始都不需要。

第二,有一个比特:([''w+?''.''w+])+。方括号形成一个字符类,其中的所有内容都被视为文字字符或类简写,如'w。但是,去掉方括号并不足以让它发挥作用。我怀疑这就是你想要的:'w+(?:'.'w+)+

第三,正则表达式末尾的量词]*)?-不匹配。*可以匹配零个或多个字符,因此使封闭组成为可选组是没有意义的。此外,这种安排可能会导致严重的性能下降。有关详细信息,请参阅本页。

还有其他一些小问题,但我现在不谈。这是新的和改进的正则表达式:

@"(?n)(https?|ftps?)://'w+('.'w+)+([-a-zA-Z0-9~!@#$%^&*()_=+/?.:;','']*)(?![^<>]*+(>|</a>))"

负前瞻(?![^<>]*+(>|</a>))是阻止标签内部或锚元素内容中的匹配的原因。不过,它仍然非常粗糙。有几个区域,比如<script>元素内部,您不希望它匹配,但它确实匹配。但是,试图涵盖所有的可能性将导致一个长达一英里的正则表达式。

检查:使用正则表达式和regex URL替换检测文本中的电子邮件,忽略图像和现有链接,只替换链接的正则表达式,它永远不会替换标记中的链接,只会替换内容中的链接。

http://html-agility-pack.net/?z=codeplex

类似于:


string textToBeLinkified = "... your text here ...";
const string regex = @"((www'.|(http|https|ftp|news|file)+':'/'/)[_.a-z0-9-]+'.[a-z0-9'/_:@=.+?,##%&amp;~-]*[^.|''|'# |!|'(|?|,| |>|<|;|')])";
Regex urlExpression = new Regex(regex, RegexOptions.IgnoreCase | RegexOptions.ExplicitCapture);
HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(textToBeLinkified);
var nodes = doc.DocumentNode.SelectNodes("//text()[not(ancestor::a)]") ?? new HtmlNodeCollection();
foreach (var node in nodes)
{
    node.InnerHtml = urlExpression.Replace(node.InnerHtml, @"<a href=""$0"">$0</a>");
}
string linkifiedText = doc.DocumentNode.OuterHtml;