从压缩文件中获取所有未压缩的字节

本文关键字:未压缩 字节 获取 压缩 文件 | 更新日期: 2023-09-27 18:04:21

我创建了一个从压缩文件返回所有未压缩字节的方法。

    public static byte[] GetAllBytesFromCompressedFile(string fullPath)
    {
        const int blockSize = 10000;
        byte[] block = new byte[blockSize];
        List<byte> allBytes = new List<byte>(blockSize);
        int counter = 0;
        using (FileStream file = new FileStream(fullPath, FileMode.Open))
        {
            using (DeflateStream compress = new DeflateStream(file, CompressionMode.Decompress))
            {
                int bytesRead = 0;
                do
                {
                    bytesRead = compress.Read(block, 0, blockSize);
                    counter += bytesRead;
                    allBytes.AddRange(block);
                } while (bytesRead == blockSize);
            }
        }
        return allBytes.GetRange(0, counter).ToArray();
    }

它工作得很好,但它可能在一个循环中被调用数百万次。大多数文件都相当小,但有些文件可能高达100Mb,我不想为所有小文件预先分配100Mb。所以我有几个问题:

  1. 首先,框架中是否已经有这样的方法?或者有更好的方法?
  2. 是否有一种方法来获得压缩文件的未压缩大小?(这样我就不必在循环中获取块,并且可以调用Read一次)
  3. 我已经使用List<byte>,所以我不需要手动重新分配一个字节数组中。有没有更有效的附加字节的方法?

我将把我的新代码放在这里,尽管这对大多数人来说可能不是一个难题。但也许有人会发现其他可以改进的地方,比如显式设置缓冲区大小(?)

    public static byte[] GetAllBytesFromCompressedFile(string fullPath)
    {
        using (MemoryStream allBytes = new MemoryStream())
        {
            using (FileStream file = new FileStream(fullPath, FileMode.Open))
            {
                using (DeflateStream compress = new DeflateStream(file, CompressionMode.Decompress))
                {
                    compress.CopyTo(allBytes);
                }
            }
            return allBytes.ToArray();
        }
    }

从压缩文件中获取所有未压缩的字节

首先,框架中是否已经有这样的方法?或者有更好的方法?

使用MemoryStream作为缓冲区,使用Stream.Copy复制一行数据

是否有办法得到压缩文件的未压缩大小?

不,deflate是一种流格式。您可以猜测一些值,因为未压缩的数据可能比压缩后的输入更大。这样做很可能浪费时间。

我已经使用列表,所以我不需要手动重新分配字节数组。有没有更有效的附加字节的方法?

这是非常低效的。List类将枚举您传入的字节数组并逐个添加字节。在一个大文件上疯狂地消耗CPU。使用MemoryStream。它使用memcpy来执行拷贝操作。

还有一个错误:您没有使用Read的返回值来确定读取了多少字节。您总是附加一个完整的缓冲区。这与建议的算法无关。