Regex字符串问题使纯文本URL可点击

本文关键字：URL 文本字符串问题 Regex | 更新日期: 2023-09-27 18:20:10

我需要一个在C#中工作的Regex代码，它可以检测字符串中的纯文本url（https/ftp/ftps），并通过在其周围放置具有相同url的锚标记来使其可点击。我已经制作了一个Regex模式，代码附在下面。

但是，如果输入字符串中已经存在任何可点击的url，则上面的代码会在其上放置另一个锚标记。例如，下面代码中的现有子字符串：string sContent:"ftp://www.abc.com'>ftp://www.abc.com"当下面的代码运行时，它上面有另一个锚标记。有什么方法可以修复它吗？

        string sContent = "ttt <a href='ftp://www.abc.com'>ftp://www.abc.com</a> abc ftp://www.abc.com abbbbb http://www.abc2.com";
        Regex regx = new Regex("(http|https|ftp|ftps)://([''w+?''.''w+])+([a-zA-Z0-9''~''!''@''#''$''%''^''&amp;''*''('')_''-''=''+''''''/''?''.'':'';''''',]*)?", RegexOptions.IgnoreCase);
        MatchCollection mactches = regx.Matches(sContent);
        foreach (Match match in mactches)
        {
            sContent = sContent.Replace(match.Value, "<a href='" + match.Value + "'>" + match.Value + "</a>");
        }

此外，我想要一个Regex代码，使电子邮件可以点击"mailto"标签。我可以自己做，但上面提到的双锚标签问题也会出现在其中。

Regex字符串问题使纯文本URL可点击

我在您的示例测试字符串中注意到，如果字符串中有一个重复的链接，例如ftp://www.abc.com，并且已经链接，那么结果将是双重锚定该链接。您已经拥有的正则表达式和@stema提供的正则表达式可以工作，但您需要以不同的方式替换sContent变量中的匹配项。

下面的代码示例应该提供您想要的内容：

string sContent = "ttt <a href='ftp://www.abc.com'>ftp://www.abc.com</a> abc ftp://www.abc.com abbbbb http://www.abc2.com";
Regex regx = new Regex("(?<!(?:href='|<a[^>]*>))(http|https|ftp|ftps)://([''w+?''.''w+])+([a-zA-Z0-9''~''!''@''#''$''%''^''&amp;''*''('')_''-''=''+''''''/''?''.'':'';''''',]*)?", RegexOptions.IgnoreCase);
MatchCollection matches = regx.Matches(sContent);
for (int i = matches.Count - 1; i >= 0 ; i--)
{
    string newURL = "<a href='" + matches[i].Value + "'>" + matches[i].Value + "</a>";
   sContent = sContent.Remove(matches[i].Index, matches[i].Length).Insert(matches[i].Index, newURL);
}

试试这个

Regex regx = new Regex("(?<!(?:href='|>))(http|https|ftp|ftps)://([''w+?''.''w+])+([a-zA-Z0-9''~''!''@''#''$''%''^''&amp;''*''('')_''-''=''+''''''/''?''.'':'';''''',]*)?", RegexOptions.IgnoreCase);

这应该对你的榜样有效。

(?<!(?:href='|>))是一个负查找，这意味着只有在其前面没有"href='"或">"时，模式才匹配。

有关，请参阅定期出口查询

特别是msdn 上的零宽度负后备断言

在Regexr上看到类似的内容。我不得不从后面的视图中删除替换，但.net应该能够处理它。

更新

为了确保也有（可能）像"<p>ftp://www.def.com</p>"这样的情况得到正确处理，我改进了regex

Regex regx = new Regex("(?<!(?:href='|<a[^>]*>))(http|https|ftp|ftps)://([''w+?''.''w+])+([a-zA-Z0-9''~''!''@''#''$''%''^''&amp;''*''('')_''-''=''+''''''/''?''.'':'';''''',]*)?", RegexOptions.IgnoreCase);

后备(?<!(?:href='|<a[^>]*>))现在正在检查是否没有"href='"或以"开头的标记

测试字符串的输出

ttt <a href='ftp://www.abc.com'>ftp://www.abc.com</a> abc <p>ftp://www.def.com</p> abbbbb http://www.ghi.com

具有此表达式

ttt <a href='ftp://www.abc.com'>ftp://www.abc.com</a> abc <p><a href='ftp://www.def.com'>ftp://www.def.com</a></p> abbbbb <a href='http://www.ghi.com'>http://www.ghi.com</a>

我知道我参加聚会迟到了，但regex有几个问题，现有的答案没有解决。首先也是最令人讨厌的，是反斜杠的森林。如果使用C#的逐字逐句字符串，就不必执行所有的双转义。无论如何，大多数反斜杠一开始都不需要。

第二，有一个比特：([''w+?''.''w+])+。方括号形成一个字符类，其中的所有内容都被视为文字字符或类简写，如'w。但是，去掉方括号并不足以让它发挥作用。我怀疑这就是你想要的：'w+(?:'.'w+)+。

第三，正则表达式末尾的量词]*)?-不匹配。*可以匹配零个或多个字符，因此使封闭组成为可选组是没有意义的。此外，这种安排可能会导致严重的性能下降。有关详细信息，请参阅本页。

还有其他一些小问题，但我现在不谈。这是新的和改进的正则表达式：

@"(?n)(https?|ftps?)://'w+('.'w+)+([-a-zA-Z0-9~!@#$%^&*()_=+/?.:;','']*)(?![^<>]*+(>|</a>))"

负前瞻(?![^<>]*+(>|</a>))是阻止标签内部或锚元素内容中的匹配的原因。不过，它仍然非常粗糙。有几个区域，比如<script>元素内部，您不希望它匹配，但它确实匹配。但是，试图涵盖所有的可能性将导致一个长达一英里的正则表达式。

检查：使用正则表达式和regex URL替换检测文本中的电子邮件，忽略图像和现有链接，只替换链接的正则表达式，它永远不会替换标记中的链接，只会替换内容中的链接。

http://html-agility-pack.net/?z=codeplex

类似于：

string textToBeLinkified = "... your text here ...";
const string regex = @"((www'.|(http|https|ftp|news|file)+':'/'/)[_.a-z0-9-]+'.[a-z0-9'/_:@=.+?,##%&amp;~-]*[^.|''|'# |!|'(|?|,| |>|<|;|')])";
Regex urlExpression = new Regex(regex, RegexOptions.IgnoreCase | RegexOptions.ExplicitCapture);
HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(textToBeLinkified);
var nodes = doc.DocumentNode.SelectNodes("//text()[not(ancestor::a)]") ?? new HtmlNodeCollection();
foreach (var node in nodes)
{
    node.InnerHtml = urlExpression.Replace(node.InnerHtml, @"<a href=""$0"">$0</a>");
}
string linkifiedText = doc.DocumentNode.OuterHtml;