Linq性能:我应该先使用' where '还是' select ' ?
本文关键字:where 还是 select 性能 我应该 Linq | 更新日期: 2023-09-27 18:04:32
我在内存中有一个大的List
,来自一个大约有20个properties
的类。
我想根据一个property
过滤这个列表,对于一个特定的任务,我只需要一个property
的列表。所以我的查询是:
data.Select(x => x.field).Where(x => x == "desired value").ToList()
首先使用Select
还是使用Where
,哪个能给我更好的性能?
data.Where(x => x.field == "desired value").Select(x => x.field).ToList()
请让我知道这是否与data type
有关,我将数据保存在内存中,或字段的类型。请注意,我也需要这些对象用于其他任务,所以我不能在将它们加载到内存之前首先过滤它们。
先使用Select,还是先使用Where,哪个能给我更好的性能。
Where
优先方法性能更高,因为它首先过滤集合,然后仅对过滤的值执行Select
。
从数学上讲,Where
优先的方法采用N + N'
操作,其中N'
是符合Where
条件的集合项的数量。
因此,它最少需要N + 0 = N
操作(如果没有项通过Where
条件),最多需要N + N = 2 * N
操作(如果所有项都通过条件)。
同时,Select
first方法将始终完全执行2 * N
操作,因为它遍历所有对象以获取属性,然后遍历所有对象以过滤它们。
我已经完成了基准来证明我的答案。
结果:
Condition value: 50
Where -> Select: 88 ms, 10500319 hits
Select -> Where: 137 ms, 20000000 hits
Condition value: 500
Where -> Select: 187 ms, 14999212 hits
Select -> Where: 238 ms, 20000000 hits
Condition value: 950
Where -> Select: 186 ms, 19500126 hits
Select -> Where: 402 ms, 20000000 hits
如果您多次运行基准测试,那么您将看到Where -> Select
方法的命中次数不时变化,而Select -> Where
方法总是执行2N
操作。
IDEOne演示:
https://ideone.com/jwZJLt 代码:class Point
{
public int X { get; set; }
public int Y { get; set; }
}
class Program
{
static void Main()
{
var random = new Random();
List<Point> points = Enumerable.Range(0, 10000000).Select(x => new Point { X = random.Next(1000), Y = random.Next(1000) }).ToList();
int conditionValue = 250;
Console.WriteLine($"Condition value: {conditionValue}");
Stopwatch sw = new Stopwatch();
sw.Start();
int hitCount1 = 0;
var points1 = points.Where(x =>
{
hitCount1++;
return x.X < conditionValue;
}).Select(x =>
{
hitCount1++;
return x.Y;
}).ToArray();
sw.Stop();
Console.WriteLine($"Where -> Select: {sw.ElapsedMilliseconds} ms, {hitCount1} hits");
sw.Restart();
int hitCount2 = 0;
var points2 = points.Select(x =>
{
hitCount2++;
return x.Y;
}).Where(x =>
{
hitCount2++;
return x < conditionValue;
}).ToArray();
sw.Stop();
Console.WriteLine($"Select -> Where: {sw.ElapsedMilliseconds} ms, {hitCount2} hits");
Console.ReadLine();
}
}
相关问题这些问题也可能让你感兴趣。它们与Select
和Where
无关,但它们与LINQ顺序性能有关:
LINQ函数的顺序重要吗?
顺序LINQ扩展方法不影响性能?
答案取决于集合的状态。
- 如果大多数实体将通过Where测试,则应用先选择;
- 如果通过Where测试的实体较少,则优先应用Where。
更新:
@YeldarKurmangaliyev用一个具体的例子和基准写下了答案。我运行了类似的代码来验证他的声明,我们的结果完全相反,这是因为我运行了与他相同的测试,但使用的对象不像他用来运行测试的Point
类型那么简单。
代码看起来很像他的代码,除了我把类的名字从Point
改为EnumerableClass
。
下面是我用来构成EnumerableClass
类的类:
public class EnumerableClass
{
public int X { get; set; }
public int Y { get; set; }
public String A { get; set; }
public String B { get; set; }
public String C { get; set; }
public String D { get; set; }
public String E { get; set; }
public Frame F { get; set; }
public Gatorade Gatorade { get; set; }
public Home Home { get; set; }
}
public class Home
{
private Home(int rooms, double bathrooms, Stove stove, InternetConnection internetConnection)
{
Rooms = rooms;
Bathrooms = (decimal) bathrooms;
StoveType = stove;
Internet = internetConnection;
}
public int Rooms { get; set; }
public decimal Bathrooms { get; set; }
public Stove StoveType { get; set; }
public InternetConnection Internet { get; set; }
public static Home GetUnitOfHome()
{
return new Home(5, 2.5, Stove.Gas, InternetConnection.Att);
}
}
public enum InternetConnection
{
Comcast = 0,
Verizon = 1,
Att = 2,
Google = 3
}
public enum Stove
{
Gas = 0,
Electric = 1,
Induction = 2
}
public class Gatorade
{
private Gatorade(int volume, Color liquidColor, int bottleSize)
{
Volume = volume;
LiquidColor = liquidColor;
BottleSize = bottleSize;
}
public int Volume { get; set; }
public Color LiquidColor { get; set; }
public int BottleSize { get; set; }
public static Gatorade GetGatoradeBottle()
{
return new Gatorade(100, Color.Orange, 150);
}
}
public class Frame
{
public int X { get; set; }
public int Y { get; set; }
private Frame(int x, int y)
{
X = x;
Y = y;
}
public static Frame GetFrame()
{
return new Frame(5, 10);
}
}
类Frame
、Gatorade
和Home
都有一个静态方法,每个方法都返回一个它们类型的实例。
下面是主程序:
public static class Program
{
const string Chars = "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789";
private static readonly Random Random = new Random();
private static string RandomString(int length)
{
return new string(Enumerable.Repeat(Chars, length)
.Select(s => s[Random.Next(s.Length)]).ToArray());
}
private static void Main()
{
var random = new Random();
var largeCollection =
Enumerable.Range(0, 1000000)
.Select(
x =>
new EnumerableClass
{
A = RandomString(500),
B = RandomString(1000),
C = RandomString(100),
D = RandomString(256),
E = RandomString(1024),
F = Frame.GetFrame(),
Gatorade = Gatorade.GetGatoradeBottle(),
Home = Home.GetUnitOfHome(),
X = random.Next(1000),
Y = random.Next(1000)
})
.ToList();
const int conditionValue = 250;
Console.WriteLine(@"Condition value: {0}", conditionValue);
var sw = new Stopwatch();
sw.Start();
var firstWhere = largeCollection
.Where(x => x.Y < conditionValue)
.Select(x => x.Y)
.ToArray();
sw.Stop();
Console.WriteLine(@"Where -> Select: {0} ms", sw.ElapsedMilliseconds);
sw.Restart();
var firstSelect = largeCollection
.Select(x => x.Y)
.Where(y => y < conditionValue)
.ToArray();
sw.Stop();
Console.WriteLine(@"Select -> Where: {0} ms", sw.ElapsedMilliseconds);
Console.ReadLine();
Console.WriteLine();
Console.WriteLine(@"First Where's first item: {0}", firstWhere.FirstOrDefault());
Console.WriteLine(@"First Select's first item: {0}", firstSelect.FirstOrDefault());
Console.WriteLine();
Console.ReadLine();
}
}
结果:
我多次运行测试,发现
.Select()其中()执行比其中().Select()。
当集合大小为1000000时。
这里是第一个测试结果,我强制每个
EnumerableClass
对象的Y
值为5,所以每个项目通过,其中:
Condition value: 250
Where -> Select: 149 ms
Select -> Where: 115 ms
First Where's first item: 5
First Select's first item: 5
这里是第二个测试结果,我强制每个
EnumerableClass
对象的Y
值为251,所以没有项目通过其中:
Condition value: 250
Where -> Select: 110 ms
Select -> Where: 100 ms
First Where's first item: 0
First Select's first item: 0
显然,结果非常依赖于集合的状态,因此:
- 在@YeldarKurmangaliyev的测试.Where().Select()表现更好;,
- 在我的测试中. select (). where ()表现更好。
集合的状态,我反复提到的包括:
- 每项的大小;
- 集合中项目的总数;,
- 可能通过Where条款的物品数量。
对答案评论的回应:
进一步,@Enigmativity说,提前知道Where的结果,以便知道是先放Where还是先放Select,这是一个第22条军规。从理论上和理论上讲,他是正确的,毫不奇怪,这种情况出现在计算机科学的另一个领域——调度。
最好的调度算法是最短作业优先,即我们首先调度执行时间最短的作业。但是,人们怎么知道完成一项特定的工作需要多少时间呢?那么,答案是:
最短作业next用于可以准确估计运行时间的特定环境。
因此,正如我在上面所说的(这也是我的答案的第一个简短版本),这个问题的正确答案将取决于集合的当前状态。 , 那么在这个答案的顶部提到的指导方针将对你有用。