我如何使c#抛出解码异常

本文关键字:解码 异常 何使 | 更新日期: 2023-09-27 18:14:10

我希望我的c#应用程序(它有一个GUI)帮助用户在"unicode (utf-8)"answers"legacy (cp1252)"之间进行选择。我想给用户两个独立的真/假读数,关于文件是否可以"成功"(尽管不一定是正确的)以这两种格式读取而不丢失细节。

当我在c#中尝试以下操作时,它不起作用。也就是说,它似乎总是返回true,即使我在知道包含非罗马字符的utf-8文本文件上调用它也是如此。

[编辑:实际上,我不应该想到这会失败。]可能是那些合理的成功之一,但碰巧是不正确的,因为大多数(所有?)字节流也是有效的cp1252。从另一个方向测试会发现无效的utf-8,就像下面的Python代码一样。]

。CanBeReadAs("nepal .txt", Encoding.GetEncoding(1252))应该返回false,但它返回true。

public static bool CanBeReadAs(string filePath, Encoding encoding)
    {
        // make it strict:
        encoding = Encoding.GetEncoding(encoding.CodePage, EncoderFallback.ExceptionFallback, DecoderFallback.ExceptionFallback);
        using (var r = new StreamReader(filePath, encoding, false))
        {
            try
            {
                r.ReadToEnd();
            }
            catch (Exception e)
            {
                //swallow
                return false;
            }
        }
        return true;
    }

我也尝试过"string s = r.r adtoend();",只是为了确保它真的被强制解码数据,但这似乎没有影响任何东西。

我做错了什么?

注意:如果我需要做任何特殊的处理bom,请让我知道。如果这很简单,我倾向于忽略它们。(其中一些文件有混合编码,顺便说一句,尽管我想认为任何实际以BOM开头的文件都是纯unicode。)

下面是我创建的Python脚本,它使用相同的策略并且工作良好:

def bad_encoding(filename, enc='utf-8', max=9):
'''Return a list of up to max error strings for lines in the file not encoded in the specified encoding. 
Otherwise, return an empty list.'''
errors = []
line = None
with open(filename, encoding=enc) as f:
    i = 0
    while True:
        try:
            i += 1
            line = f.readline()
        except UnicodeDecodeError:
            errors.append('UnicodeDecodeError: Could not read line {} as {}.'.format(i, enc))
        if not line or len(errors) > max:
            break
return errors

我如何使c#抛出解码异常

通过Encoding类(Ascii, UTF8, Unicode等)可用的静态Encoding实例都试图尽最大努力解码输入字节,如果失败则不抛出。

要创建具有特定编码/解码行为的Encoding,您应该使用Encoding.GetEncoding的过载,它接受EncoderFallback/DecoderFallback参数。我尝试创建各种编码(AsciiEncoding, UTF8Endcoding)的实例,但它们是只读的,因此设置回退选项总是抛出InvalidOperationException。在您的示例中,要创建一个在解码失败时抛出的实例,请尝试:

encoding = Encoding.GetEncoding(encoding.CodePage, EncoderFallback.ExceptionFallback, DecoderFallback.ExceptionFallback);