计算转义字符串

本文关键字：字符串转义字符转义计算 | 更新日期: 2023-09-27 18:01:30

我在文件中有一些字符串已经转义了。所以文件的内容看起来像这样:

Hello'nWorld. This is'tGreat.

当我读取文件时，我得到'n作为两个不同的字符而不是一个。

如何将转义字符串转换为非转义字符串?

计算转义字符串

基于@deAtog的代码，我做了一些小的添加

支持'U00000000格式字符

在一定程度上简化了十六进制转换

string UnEscape(string s)
{
    StringBuilder sb = new StringBuilder();
    Regex r = new Regex("''''[abfnrtv?'"''''']|''''[0-3]?[0-7]{1,2}|''''u[0-9a-fA-F]{4}|''''U[0-9a-fA-F]{8}|.");
    MatchCollection mc = r.Matches(s, 0);
    foreach (Match m in mc)
    {
        if (m.Length == 1)
        {
            sb.Append(m.Value);
        }
        else
        {
            if (m.Value[1] >= '0' && m.Value[1] <= '7')
            {
                int i = Convert.ToInt32(m.Value.Substring(1), 8);
                sb.Append((char)i);
            }
            else if (m.Value[1] == 'u')
            {
                int i = Convert.ToInt32(m.Value.Substring(2), 16);
                sb.Append((char)i);
            }
            else if (m.Value[1] == 'U')
            {
                int i = Convert.ToInt32(m.Value.Substring(2), 16);
                sb.Append(char.ConvertFromUtf32(i));
            }
            else
            {
                switch (m.Value[1])
                {
                    case 'a':
                        sb.Append(''a');
                        break;
                    case 'b':
                        sb.Append(''b');
                        break;
                    case 'f':
                        sb.Append(''f');
                        break;
                    case 'n':
                        sb.Append(''n');
                        break;
                    case 'r':
                        sb.Append(''r');
                        break;
                    case 't':
                        sb.Append(''t');
                        break;
                    case 'v':
                        sb.Append(''v');
                        break;
                    default:
                        sb.Append(m.Value[1]);
                        break;
                }
            }
        }
    }
    return sb.ToString();
}

您可以尝试使用system . text . regulareexpressions . regex . unescape .

在MSDN论坛上也有一个条目

参见如何在。net中取消转义和重新转义字符串?.

像你一样，我无法找到一个体面的解决方案。当然你也可以使用String。替换后，这种解决方案的性能和速度都很糟糕。此外，通过这种方法很难支持八进制和Unicode转义序列。一个更好的选择是使用简单的RegEx解析器。这里有一个方法可以正确地反转义任何给定的字符串。它支持标准转义序列、八进制转义序列和unicode转义序列。

string UnEscape(string s) {
    StringBuilder sb = new StringBuilder();
    Regex r = new Regex("''''[abfnrtv?'"''''']|''''[0-3]?[0-7]{1,2}|''''u[0-9a-fA-F]{4}|.");
    MatchCollection mc = r.Matches(s, 0);
    foreach (Match m in mc) {
        if (m.Length == 1) {
            sb.Append(m.Value);
        } else {
            if (m.Value[1] >= '0' && m.Value[1] <= '7') {
                int i = 0;
                for (int j = 1; j < m.Length; j++) {
                    i *= 8;
                    i += m.Value[j] - '0';
                }
                sb.Append((char)i);
            } else if (m.Value[1] == 'u') {
                int i = 0;
                for (int j = 2; j < m.Length; j++) {
                    i *= 16;
                    if (m.Value[j] >= '0' && m.Value[j] <= '9') {
                        i += m.Value[j] - '0';
                    } else if (m.Value[j] >= 'A' && m.Value[j] <= 'F') {
                        i += m.Value[j] - 'A' + 10;
                    } else if (m.Value[j] >= 'a' && m.Value[j] <= 'f') {
                        i += m.Value[j] - 'a' + 10;
                    }
                }
                sb.Append((char)i);
            } else {
                switch (m.Value[1]) {
                    case 'a':
                        sb.Append(''a');
                        break;
                    case 'b':
                        sb.Append(''b');
                        break;
                    case 'f':
                        sb.Append(''f');
                        break;
                    case 'n':
                        sb.Append(''n');
                        break;
                    case 'r':
                        sb.Append(''r');
                        break;
                    case 't':
                        sb.Append(''t');
                        break;
                    case 'v':
                        sb.Append(''v');
                        break;
                    default:
                        sb.Append(m.Value[1]);
                        break;
                }
            }
        }
    }
    return sb.ToString();
}

你可以这样做:

string str = str.Replace(@"'n","'n");

更新:

显然这是一个变通方案，因为场景本身是"不自然的"。Regex.Unescape解决方案在这里不适用，因为它打算用于不转义的regex控制字符，而不是用于新行等。

为了支持其他相关字符，可以编写如下的替换函数:

public string ReEscapeControlCharacters(string str) {
   return str.Replace(@"'n","'n").Replace(@"'r","'r").Replace(@"'t","'t");
}

试试这个:

String replaced = startstring.Replace(System.Environment.NewLine, desirevalue);

这个必须只对"'n"有效