数组遍历:并行性能比非并行性能慢

本文关键字：并行并行性性能性能比遍历数组 | 更新日期: 2023-09-27 17:53:21

在我的程序中，我想确定有多少数字有9位，多少有8位，等等，使用这个循环:

for (int i = 0; i < 60000000; i++)
        {
            if (a[i] >= 1000000000) { p[10] += 1; }
            else if (a[i] >= 100000000) { p[9] += 1; }
            else if (a[i] >= 10000000) { p[8] += 1;  }
            else if (a[i] >= 1000000) { p[7] += 1;  }
            else if (a[i] >= 100000) { p[6] += 1;  }
            else if (a[i] >= 10000) { p[5] += 1; }
            else if (a[i] >= 1000) { p[4] += 1;  }
            else if (a[i] >= 100) { p[3] += 1;  }
            else if (a[i] >= 10) { p[2] += 1;  }
            else { p[1] += 1; }
        }

我像这样并行化这个循环:

void partiton(int f, int l, int[] p)
    {
        Parallel.Invoke(()=>calc(f,l/2,p),()=>calc(l/2,l,p));
    }
    void calc(int f, int l, int[] p)
    {
        for (int i = f; i < l; i++)
        {
            if (a[i] >= 1000000000) { p[10] += 1; }
            else if (a[i] >= 100000000) { p[9] += 1; }
            else if (a[i] >= 10000000) { p[8] += 1;  }
            else if (a[i] >= 1000000) { p[7] += 1;  }
            else if (a[i] >= 100000) { p[6] += 1;  }
            else if (a[i] >= 10000) { p[5] += 1; }
            else if (a[i] >= 1000) { p[4] += 1;  }
            else if (a[i] >= 100) { p[3] += 1;  }
            else if (a[i] >= 10) { p[2] += 1;  }
            else { p[1] += 1; }
        }
    }
private void button1_Click(object sender, EventArgs e)
    {
        Stopwatch w = new Stopwatch();
        w.Restart();
        int f = 0;
        int l = 60000000;
        Parallel.Invoke(() => calc(f, l/2, p), () => calc(l/2, l, p));
        w.Stop();
        label1.Text = w.Elapsed.ToString();
    }

但是基准是:顺序:0.3834平行:0.6864

为什么并行代码较慢?我的代码有问题吗?我的cpu是AMD Phenom™II X4。模型,955。

数组遍历:并行性能比非并行性能慢

一切都在变量中。

以p对象为例。将相同的p对象传递给两个线程。现在，我不确定Parallel.Invoke是否能够检测到这一点，因此是串行执行它们(尽管有显着的开销)，但我做知道，如果它没有检测到这一点，那么你有一个lot尝试在同一线程中读/写相同的值。

现在，我以您的代码为基础构建了一个小而具体的示例，这里是它的副本。(粘贴到任何新的控制台项目中，将_Main重命名为Main，然后按照您认为合适的方式运行。)

static int[] a = new int[100000000];
static void calc(int f, int l, int[] p, int[] a)
{
    for (int i = f; i < l; i++)
    {
        if (a[i] >= 1000000000) { p[10] += 1; }
        else if (a[i] >= 100000000) { p[9] += 1; }
        else if (a[i] >= 10000000) { p[8] += 1; }
        else if (a[i] >= 1000000) { p[7] += 1; }
        else if (a[i] >= 100000) { p[6] += 1; }
        else if (a[i] >= 10000) { p[5] += 1; }
        else if (a[i] >= 1000) { p[4] += 1; }
        else if (a[i] >= 100) { p[3] += 1; }
        else if (a[i] >= 10) { p[2] += 1; }
        else { p[1] += 1; }
    }
}
public static void _Main(string[] args)
{
    for (int i = 0; i < a.Length; i++)
    {
        a[i] = i;
    }
    int f = 0;
    int l = a.Length;
    int[] p = new int[10];
    int[] p1 = new int[10];
    int[] p2 = new int[10];
    int[] p3 = new int[10];
    int[] p4 = new int[10];
    int[] a1 = new int[l / 2];
    int[] a2 = new int[l / 2];
    int[] a11 = new int[l / 4];
    int[] a12 = new int[l / 4];
    int[] a13 = new int[l / 4];
    int[] a14 = new int[l / 4];
    for (int i = 0; i < a.Length; i++)
        if (i >= l / 2)
            a2[i - l / 2] = a[i];
        else
            a1[i] = a[i];
    for (int i = 0; i < a.Length; i++)
        if (i >= l / 4 * 3)
            a14[i - l / 4 * 3] = a[i];
        else if (i >= l / 4 * 2)
            a13[i - l / 4 * 2] = a[i];
        else if (i >= l / 4 * 1)
            a12[i - l / 4] = a[i];
        else
            a14[i] = a[i];
    int rc = 5;
    for (int d = 0; d < rc; d++)
    {
        Stopwatch w = new Stopwatch();
        w.Start();
        Parallel.Invoke(() => calc(f, l / 2, p1, a1), () => calc(f, l / 2, p2, a2));
        w.Stop();
        Console.WriteLine("Attempt {0}/{1}: {2}", 1, d, w.ElapsedMilliseconds);
        w.Reset();
        w.Start();
        Parallel.Invoke(() => calc(f, l / 4, p1, a11), () => calc(f, l / 4, p2, a12), () => calc(f, l / 4, p3, a13), () => calc(f, l / 4, p4, a14));
        w.Stop();
        Console.WriteLine("Attempt {0}/{1}: {2}", 2, d, w.ElapsedMilliseconds);
        w.Reset();
        w.Start();
        Parallel.Invoke(() => calc(f, l / 2, p, a), () => calc(l / 2, l, p, a));
        w.Stop();
        Console.WriteLine("Attempt {0}/{1}: {2}", 3, d, w.ElapsedMilliseconds);
        w.Reset();
        w.Start();
        calc(f, l, p, a);
        w.Stop();
        Console.WriteLine("Attempt {0}/{1}: {2}", 4, d, w.ElapsedMilliseconds);
    }
}

我肯定还有更多的优化我可以运行。(例如，将if s转换为while循环。)我也不能保证它的准确性。我只是采纳了你的逻辑，并对其进行了适当的调试。

但是当我在我的PC上运行这个例子时，我得到了以下结果:

尝试1平均耗时327.8ms。这个尝试将a和p变量拆分为两个单独的变量。尝试2平均耗时306ms。这个尝试将a和p变量拆分为四个单独的变量。
尝试3平均耗时703ms。这和你之前做的一模一样。(尽管在calc方法上有一个局部变量)

calc

为什么差别这么大?尝试1和2将处理过的数据拆分为不需要线程同步的变量，而尝试3则强制两个线程使用相同的变量，从而产生冲突，正如Ron Beyer所说，造成上下文切换。

基本上，如果你要尝试并行写入相同的内容，你应该本地化每个线程正在写入的数据，并在最后合并更改。

这段代码不会给你正确的数字，因为它在没有同步的情况下从多个线程中增加相同的变量。当不同的CPU内核处理相同的变量时，每个内核都有自己的版本，并且这个版本的修改不会立即流向其他缓存。正因为如此，其他内核只能在旧版本上工作。例如，一个核心可能将p[0]从0增加到1，但另一个核心仍然认为它是0。所以当它增加时，值又变成了1。稍后，这个1将出现在主内存中，而不是2。
回答你的问题，问题是你从两个线程使用相同的内存块，它减慢了内存访问。数据通常是缓存的，但是当一个核心写内存区域时，其他核心迟早会发现这一点，他们需要从主内存中重新加载它，这是缓慢的。(早或晚对你来说很重要，它不会立即发生，所以你需要同步，当你做得对的时候，这会让一切变得更慢)。由于这些重新读取，多线程版本会更慢。

当你试图使一个算法多线程，你需要尝试分离任务的方式，他们不使用共享内存。作为一种微优化-这是不好的-你可以尝试分配内存的方式，他们不是彼此相邻，否则前面提到的缓存问题会减慢处理。