迭代T[]的开销强制转换为IList

本文关键字：转换 IList 开销迭代 | 更新日期: 2023-09-27 18:15:53

我注意到在被转换为泛型接口集合(IList或IEnumberable)的基本集合(T[])上迭代会影响性能。

例如:

    private static int Sum(int[] array)
    {
        int sum = 0;
        foreach (int i in array)
            sum += i;
        return sum;
    }

上面的代码执行速度明显快于下面的代码，下面的代码将参数更改为类型IList(或IEnumerable):

    private static int Sum(IList<int> array)
    {
        int sum = 0;
        foreach (int i in array)
            sum += i;
        return sum;
    }

如果传递的对象是一个原始数组，并且如果我尝试将循环更改为for循环而不是foreach循环，则性能仍然会受到影响。

我可以通过这样编码来解决性能问题:

    private static int Sum(IList<int> array)
    {
        int sum = 0;
        if( array is int[] )
            foreach (int i in (int[])array)
                sum += i;
        else
            foreach (int i in array)
                sum += i;
        return sum;
    }

有没有更优雅的方法来解决这个问题?谢谢你的宝贵时间。

我的基准代码:

    static void Main(string[] args)
    {
        int[] values = Enumerable.Range(0, 10000000).ToArray<int>();
        Stopwatch sw = new Stopwatch();
        sw.Start();
        Sum(values);
        //Sum((IList<int>)values);
        sw.Stop();
        Console.WriteLine("Elasped: {0} ms", sw.ElapsedMilliseconds);
        Console.Read();
    }

迭代T[]的开销强制转换为IList<T>

如果该方法对性能至关重要，最好的方法是为Sum创建过载，并将int[]作为参数。CLR的JIT可以检测数组上的foreach样式的迭代，并且可以跳过范围检查并直接寻址每个元素。在x86上，每次循环迭代需要3-5条指令，只需要一次内存查找。

使用IList时，JIT不知道底层集合的结构，最终使用IEnumerator<int>。循环的每次迭代使用两个接口调用—一个用于Current，一个用于MoveNext(2-3次内存查找和对每个接口的调用)。这很可能会导致大约20条非常昂贵的指令，而且您对此无能为力。

Edit:如果您对没有附加调试器的Release build 中JIT发出的实际机器码感到好奇，请参见这里。

阵列版本

            int s = 0;
00000000  push        ebp  
00000001  mov         ebp,esp 
00000003  push        edi  
00000004  push        esi  
00000005  xor         esi,esi 
            foreach (int i in arg)
00000007  xor         edx,edx 
00000009  mov         edi,dword ptr [ecx+4] 
0000000c  test        edi,edi 
0000000e  jle         0000001B 
00000010  mov         eax,dword ptr [ecx+edx*4+8] 
                s += i;
00000014  add         esi,eax 
00000016  inc         edx  
            foreach (int i in arg)
00000017  cmp         edi,edx 
00000019  jg          00000010

IEnumerable版本

            int s = 0;
00000000  push        ebp  
00000001  mov         ebp,esp 
00000003  push        edi  
00000004  push        esi  
00000005  push        ebx  
00000006  sub         esp,1Ch 
00000009  mov         esi,ecx 
0000000b  lea         edi,[ebp-28h] 
0000000e  mov         ecx,6 
00000013  xor         eax,eax 
00000015  rep stos    dword ptr es:[edi] 
00000017  mov         ecx,esi 
00000019  xor         eax,eax 
0000001b  mov         dword ptr [ebp-18h],eax 
0000001e  xor         edx,edx 
00000020  mov         dword ptr [ebp-24h],edx 
            foreach (int i in arg)
00000023  call        dword ptr ds:[009E0010h] 
00000029  mov         dword ptr [ebp-28h],eax 
0000002c  mov         ecx,dword ptr [ebp-28h] 
0000002f  call        dword ptr ds:[009E0090h] 
00000035  test        eax,eax 
00000037  je          00000052 
00000039  mov         ecx,dword ptr [ebp-28h] 
0000003c  call        dword ptr ds:[009E0110h] 
                s += i;
00000042  add         dword ptr [ebp-24h],eax 
            foreach (int i in arg)
00000045  mov         ecx,dword ptr [ebp-28h] 
00000048  call        dword ptr ds:[009E0090h] 
0000004e  test        eax,eax 
00000050  jne         00000039 
00000052  mov         dword ptr [ebp-1Ch],0 
00000059  mov         dword ptr [ebp-18h],0FCh 
00000060  push        0F403BCh 
00000065  jmp         00000067 
00000067  cmp         dword ptr [ebp-28h],0 
0000006b  je          00000076 
0000006d  mov         ecx,dword ptr [ebp-28h] 
00000070  call        dword ptr ds:[009E0190h]

欢迎光临优化。事情并不总是显而易见的!

基本上，正如您所发现的那样，当编译器检测到某些类型的安全约束被证明可以保存时，它可以在进行完全优化时发出非常高效的代码。在这里(如MagnatLU所示)，我们看到，知道您已经有了一个数组，就可以对固定的大小做出各种假设，并且它允许直接访问内存(这在如何与CPU的内存预取代码集成方面也是最有效的，以获得额外的速度)。当编译器没有证据证明它可以生成超快的代码时，它就会采取安全策略。(这是正确的做法。)

作为一般评论，当涉及到优化编码时，您的工作区代码非常简单(当使代码具有超级可读性和可维护性并不总是首先考虑的时候)。如果不让类的API变得更复杂，我真的不知道如何改进它(这不是一个胜利!)此外，只需在代码体中添加注释，说明为什么这样做，就可以解决维护问题;这实际上是代码中(非文档)注释的最佳用途之一。考虑到用例是大数组(即，首先优化是合理的)，我想说您在那里有一个很好的解决方案。

作为@MagnatLU上面的答案的替代方案，您可以使用for代替foreach并缓存列表的Count。与int[]相比，仍然有开销，但没有那么多:在我的机器上使用您的测试代码，IList<int>的过载持续时间减少了约50%。

private static int Sum(IList<int> array)
{
    int sum = 0;
    int count = array.Count;
    for (int i = 0; i < count; i++)
        sum += array[i];
    return sum;
}