字符串和4字节的Unicode字符

本文关键字:Unicode 字符 字节 字符串 | 更新日期: 2023-09-27 17:49:24

我有一个关于c#中的字符串和字符的问题。我发现c#中的字符串是Unicode字符串,而char需要2个字节。每个字符都是UTF-16编码。这很好,但我也在维基百科上读到,在UTF-16中有一些字符占用4个字节。

我正在做一个程序,可以让你为字母数字显示绘制字符。在程序中也有一个测试器,你可以在那里写一些字符串,它会把它画出来让你看看它是什么样子的。

那么我应该如何处理字符串,用户写一个字符,它占用4个字节,即2个字符。因为我需要一个字符一个字符地遍历字符串,在列表中找到这个字符,并将其绘制到面板中

字符串和4字节的Unicode字符

你可以这样做:

for( int i = 0; i < str.Length; ++i ) {
    int codePoint = Char.ConvertToUTF32( str, i );
    if( codePoint > 0xffff ) {
        i++;
    }
}

codePoint表示任何可能的码点为32位整数。

完全使用String对象;完全不要使用Char。使用IndexOf的示例:

var needle = "ℬ";    // U+1D49D (I think)
var hayStack = "a code point outside basic multi lingual plane: ℬ";
var index = heyStack.IndexOf(needle);

String类上的大多数方法都有接受CharString的重载。Char上的大多数方法都有使用String的重写。只是不要使用Char