在c#中,根据文件大小将文件列表拆分为多个更小的列表

本文关键字:列表 文件 拆分 小将 | 更新日期: 2023-09-27 18:02:57

我正在编写一个方法,它将获取一个大的文件列表,并将它们分成包含相同磁盘空间的较小列表。如。一个列表包含一个100kb大小的文件,另一个列表包含100个文件,每个文件大小为1kb。

我的代码做了以下事情。如果列表中的所有文件总和超过500kb,我希望将该列表拆分为更小的列表。这意味着如果我的总数为600kb,我将有2个列表。我想为每个列表添加300kb(或尽可能接近)的文件。

我编写的代码可以很好地完成这一点,但是有一种常见的场景会把它搞砸。如果我有99个文件。99个文件每个1kb,最后一个文件400kb。这段代码将来回地向每个列表添加1个文件,直到两个列表都有49个文件,每个列表中都有49kb的文件,但是现在最终的文件很大,这意味着一个列表将是49kb,另一个是449kb。我需要一种聪明的方法来划分文件,这样400kb的文件最终会单独出现在一个列表中。

int listcount = (int)Math.Ceiling(totalsize / listlimit); //500kb
    List<string>[] lists = new List<string>[listcount];
    double[] memorytotals = new double[listcount]; // this array will keep track of what the file size total is in each of the arrays.
    foreach(string file in filelist)
    {
        double size = new FileInfo(file).Length;
        int pos = 0;
        for (int i = 0; i < memorytotals.Length; i++)
    {
        if (memorytotals[i] < memorytotals[pos]) { pos = i; }
    }
       if(size > memorytotals[pos])
        {
            //get the next smallest array that is not pos
            int pos2 = 0;
            for (int i = 0; i < memorytotals.Length; i++)
            {
                if (memorytotals[i] < memorytotals[pos2] && pos2 != pos) 
                { 
                    pos2 = i; 
                }
            }
            //if moving all contents of the smallest array into the second smallest array make for a smaller size than just putting the larger file directly into the smaller array than do it.
            double newlistTotal = memorytotals[pos] + memorytotals[pos2];
            if(newlistTotal < size)
            {
                lists[pos2].AddRange(lists[pos]);
                //empty the list in order to add the new larger file to this list.
                lists[pos].Clear();
            }
        }
        lists[pos].Add(file);
    }

在c#中,根据文件大小将文件列表拆分为多个更小的列表

这不是最优的解决方案,但至少它将文件分成了大小相同的不同列表。很多改进可以在代码中完成,只是第一个方法。

我根据文件的大小来排序,然后开始将它们添加到列表中,检查它们是否不会超过限制。

int listcount = (int)Math.Ceiling(totalsize / listlimit); //500kb
            List<FileInfo> fileInfoList = new List<FileInfo>();
            List<string>[] lists = new List<string>[listcount];
            double[] memorytotals = new double[listcount]; // this array will keep track of what the file size total is in each of the arrays.
            foreach (string file in filelist)
            {
                fileInfoList.Add(new FileInfo(file));         // Add all the FileInfo to a list to order it                      
            }
            fileInfoList.OrderBy(r => r.Length);

            foreach (FileInfo fileInfo in fileInfoList)
            {
                double size = fileInfo.Length;
                // flag for only add a file one time
                bool flag = true;

                for (int j = 0; j < memorytotals.Length; j++)
                {
                    // check if the file fits in the list
                    if (memorytotals[j] + size < listcount && flag)
                    {
                        memorytotals[j] = memorytotals[j] + size;
                        lists[j].Add(fileInfo.FullName);
                        flag = false;
                    }
                }
            }

我写了一个方法来打包文件,我用int来代替FileInfo,这样可以更容易测试,当然,这不是一个很好的实现

static List<List<int>> SplitFileWithLimitSize(List<int> totalSizes, int limitSize)
{
    List<List<int>> resultList = new List<List<int>>();//the result packet
    List<int> tmp = new List<int>();
    int reduceSize = limitSize;
    while (true)
    {
        var maxSize = 0;
        var filters = totalSizes.Where(x => x <= reduceSize);//to fiter the possible size
        if (filters.Any())
        {
            maxSize = filters.Max();//get max size
        }
        if (maxSize == 0)
        {//there is no size got success ,so add the tmp to resultList,and reinit the parameters
            resultList.Add(tmp);
            tmp = new List<int>();
            reduceSize = limitSize;
            continue;
        }
        reduceSize = reduceSize - maxSize;
        totalSizes.Remove(maxSize);
        tmp.Add(maxSize);
        if (totalSizes.Count == 0)
        {//if there is nothing reduce in totalSizes,tmp to resultList,and  break the loop
            resultList.Add(tmp);
            break;
        }
    }
    //resultList.ForEach(x =>
    //{
    //    Console.WriteLine("Pack:" + string.Join(" ", x));
    //});
    return resultList;
}

测试方法为

var totalSizes = new List<int>() { 400, 200, 290, 47, 63 };
var limitSize = 500;
SplitFileWithLimitSize(totalSizes, limitSize);//there will 3 packet in list
Console.WriteLine("#################");
totalSizes = new List<int>() { 400, 200, 290, 100, 10 };
SplitFileWithLimitSize(totalSizes, limitSize);//there will 2 packet in list