并行类不提供任何加速
本文关键字:任何 加速 并行 | 更新日期: 2023-09-27 18:34:07
我正在尝试创建一种方法,该方法将过滤掉低于给定灰度阈值的所有像素(例如,下面的所有像素都是黑色的,上面的所有像素都是白色的(。该方法有效,但并不像我感觉的那么快。
我决定使用 Parallel
类,但无论我设置什么MaxDegreeOfParallelism
我都没有得到任何速度优势。我也在位图上执行一些其他操作,无论MaxDegreeOfParallelism
是什么,操作的总时间始终在 170 毫秒左右。调试时,执行此过滤本身所需的时间约为 160 毫秒,因此我认为总体差异会很明显。
我使用的是 i7 处理器、4 个物理内核、8 个逻辑内核。
代码:
Color black = System.Drawing.Color.FromArgb(0, 0, 0);
Color white = System.Drawing.Color.FromArgb(255, 255, 255);
int lowerBound = (int)((float)lowerBoundPercent * 255.0 / 100.0);
int upperBound = (int)((float)upperBoundPercent * 255.0 / 100.0);
int[][] border = new int[8][];
for (int i=0;i<8;i++)
{
border[i] = new int[] { i*height/8, (i+1)*height/8-1};
}
Parallel.For(0, 8, new ParallelOptions { MaxDegreeOfParallelism = 8 }, i =>
{
for (int k = 0; k < width; k++)
{
for (int j = border[i][0]; j <= border[i][1]; j++)
{
Color pixelColor;
int grayscaleValue;
pixelColor = color[k][j];
grayscaleValue = (pixelColor.R + pixelColor.G + pixelColor.B) / 3;
if (grayscaleValue >= lowerBound && grayscaleValue <= upperBound)
color[k][j] = white;
else
color[k][j] = black;
}
}
});
color[][]
是一个锯齿状的System.Drawing.Color
数组。
问题是:这正常吗?如果没有,我该怎么做才能更改它?
编辑:
像素提取:
Color[][] color;
color = new Color[bitmap.Width][];
for (int i = 0; i < bitmap.Width; i++)
{
color[i] = new Color[bitmap.Height];
for (int j = 0; j < bitmap.Height; j++)
{
color[i][j] = bitmap.GetOriginalPixel(i, j);
}
}
位图是我自己的类位图的一个实例:
public class Bitmap
{
System.Drawing.Bitmap processed;
//...
public Color GetOriginalPixel(int x, int y) { return processed.GetPixel(x, y); }
//...
}
为了回答你关于为什么你的并行方法没有更快的主要问题,Parralel.For
只从一个线程开始,然后添加更多的头,因为它检测到更多的线程可能有利于加快要做的工作,请注意并行选项是最大并行度,而不仅仅是并行度。很简单,循环的迭代次数不足以使其启动足够的线程以使其有效,您需要减少每次迭代的工作。
尝试通过循环宽度而不是 8 个高度块来为并行操作提供更多工作。
Color black = System.Drawing.Color.FromArgb(0, 0, 0);
Color white = System.Drawing.Color.FromArgb(255, 255, 255);
int lowerBound = (int)((float)lowerBoundPercent * 255.0 / 100.0) * 3;
int upperBound = (int)((float)upperBoundPercent * 255.0 / 100.0) * 3;
Parallel.For(0, width, k =>
{
for (int j = 0; j < height; j++)
{
Color pixelColor;
int grayscaleValue;
pixelColor = color[k][j];
grayscaleValue = (pixelColor.R + pixelColor.G + pixelColor.B);
if (grayscaleValue >= lowerBound && grayscaleValue <= upperBound)
color[k][j] = white;
else
color[k][j] = black;
}
});
我不会同时做宽度和高度,那么你可能会遇到相反的问题,即没有给每次迭代足够的工作。
我强烈建议您下载并阅读并行编程模式,在讨论您应该付出多少工作时,它会进入这个确切的示例Parallel.For
。查看从 C# 版本第 26 页底部开始的">非常小的循环体"和">太细粒度,太紧缩颗粒"反模式,以查看您遇到的确切问题。
此外,我会考虑使用LockBits来读取像素数据,而不是像我们在评论中讨论的那样使用GetPixel和SetPixel。
使用LockBits
,我设法将时间从每帧 ~165 毫秒缩短到 ~55 毫秒。然后,我继续做更多的研究,并将LockBits
与不安全上下文中的指针操作和 Parallel.For 循环相结合。生成的代码:
位图类:
public class Bitmap
{
System.Drawing.Bitmap processed;
public System.Drawing.Bitmap Processed { get { return processed; } set { processed = value; } }
// ...
}
方法:
int lowerBound = 3*(int)((float)lowerBoundPercent * 255.0 / 100.0);
int upperBound = 3*(int)((float)upperBoundPercent * 255.0 / 100.0);
System.Drawing.Bitmap bp = bitmap.Processed;
int width = bitmap.Width;
int height = bitmap.Height;
Rectangle rect = new Rectangle(0, 0, width, height);
System.Drawing.Imaging.BitmapData bpData = bp.LockBits(rect, System.Drawing.Imaging.ImageLockMode.ReadWrite, bp.PixelFormat);
unsafe
{
byte* s0 = (byte*)bpData.Scan0.ToPointer();
int stride = bpData.Stride;
Parallel.For(0, height, y1 =>
{
int posY = y1 * stride;
byte* cpp = s0 + posY;
for (int x =0; x<width; x++)
{
int total = cpp[0] + cpp[1] + cpp[2];
if (total >= lowerBound && total <= upperBound)
{
cpp[0] = 255;
cpp[1] = 255;
cpp[2] = 255;
cpp[3] = 255;
}
else
{
cpp[0] = 0;
cpp[1] = 0;
cpp[2] = 0;
cpp[3] = 255;
}
cpp += 4;
}
});
}
bp.UnlockBits(bpData);
在Parallel.For
循环中使用这种工作分工,代码在 1-5 毫秒内执行,这意味着大约 70 倍的速度!
我尝试将循环的块增大 4 倍和 8 倍,时间范围仍然是 1-5 毫秒,所以我不会讨论。无论如何,循环足够快。
非常感谢您的回答,斯科特,并感谢大家在评论中的投入。