比较阵列之间的距离

本文关键字：距离之间阵列比较 | 更新日期: 2023-09-27 17:59:17

如何比较两个数组之间的相似性？假设我有：

Base Array: [.5,0,0,0,.25,0,0,.25,0,0,0,0]
Array 1: [1,0,0,0,1,0,0,1,0,0,0,0]
Array 2: [0,0,1,0,0,0,1,0,0,1,0,0]
Array 3: [1,0,0,0,0,0,0,0,0,0,0,0]

关于上面的数组，答案应该是数组1。答案是数组1，因为数组元素在结构上与基数组的数组元素"更接近"。与数组3不同，.25更接近于1而不是0。另一个例子：

Base Array: [.75,0,0,0,0,0,0,0,.25,0,0,0]
Array 1: [1,0,0,0,1,0,0,1,0,0,0,0]
Array 2: [0,0,1,0,0,0,1,0,0,1,0,0]
Array 3: [1,0,0,0,0,0,0,0,0,0,0,0]

在这种情况下，数组3应该是答案。

然而，使用我目前的算法（我稍后会给出），答案变成了数组3。以下是我正在使用的：

for (int i = 0; i < basearray.Length; i++)
{
  temp = (basearray[i] - arrayX[i]);
  dist += temp * temp;
}

所以，我觉得我的算法有问题吗？或者，我需要使用一种"不同"的算法，而不是距离（因为本质上，.25比1更接近0，但我想要的是其他的）。

谢谢！

更新：

我找到了答案！感谢所有人的帮助。这是：

float[] pbaseArrX = new float[3];
float[] pcompArrX = new float[3];
float dist1 = 0, dist2 = 0;
for (int i = 0; i < baseArrX.Count; i++)
{
  pbaseArrX[i] = baseArrX[i] / (baseArrX[0] + baseArrX[1] + baseArrX[2]);
}
//Do the following for both compArr1 and compArr2;
for (int i = 0; i < compArrX.Count; i++)
{
  pcompArrX[i] = pcompArrX[i] / (pcompArrX[0] + pcompArrX[1] + pcompArr[2]);
}
//Get distance for both
for (int i = 0; i < pcompArrX.Count; i++)
{
  distX = distX + ((pcompArrX[i] - pbaseArrX[i])^2);
}
//Then just use conditional to determine which is 'closer'

比较阵列之间的距离

似乎您想将阵列作为射线（仅方向）进行比较，但您将它们作为矢量（方向和大小）进行比较。我建议将数组与余弦相似性进行比较，余弦相似性只是向量之间角度的余弦，因此只比较它们的方向。对于所提供的数组，基本数组和数组1之间的余弦相似性为0.94，而数组2的余弦相似度为0.82，符合您的期望。

数组3是正确答案。你使用的算法会给你正确的结果。

基本上，对我来说，阵列3比阵列1更类似于基本阵列。你要找的图案是什么？你说Array1应该是结果。。。为什么？

距离只是一种通过任意数学假设来比较两个数组的方法，它背后没有真正的"逻辑"，而是我们赋予它的

如果您希望结果为Array1，则：

定义为什么排列1应是逻辑术语的结果
将"为什么排列1"转化为数学公式
执行该公式

这里的问题是您对"相似性"的概念没有明确定义。根据数据的使用情况，有无数种方法可以定义相似性。抛开你的数组不谈，有一个简单的例子：

眼镜和双目眼镜是相似的，因为你用它们来观察事物
眼镜和自行车是相似的，因为它们都是由两个互相连接的圆圈组成的
Glasses和Grass是相似的，因为它们都以"G"开头，以"S"结尾

正如你所看到的，除非你准确地定义了你需要什么，否则任何东西都可能与任何东西相似。人类善于在正确的任务中使用正确的相似性，但除非你明确告诉计算机你想要什么，否则计算机无法做到这一点。

抛开这一点不谈，有一种常见的相似性情况，它经常用于数据挖掘中的序列数据。这被称为余弦距离，它与你所使用的没有太大区别。它被称为余弦距离。以下是算法：

for (int i = 0; i < basearray.Length; i++)
{
  temp += (basearray[i] * arrayX[i]);
  f_base += (basearray[i] * basearray[i]);
  f_array += (array[i] * array[i]);
}
dist = 1 - (temp / sqrt( f_base * f_array ));

这基本上只是计算两个阵列之间的"角度"，这两个阵列被描绘为n维空间中的点。在大多数情况下都能很好地工作，并且可以很容易地用于其他需求（当需要其他类型的相似性时）。

数学上，每个数组都是一个点，距离度量称为范数。你使用的是欧几里得范数的一个版本，它是我们在三维空间距离的标准度量。它只是错过了平方根，因为你感兴趣的是哪一个距离最近，而不是测量实际距离，所以它仍然适用于你。

在你的例子中，第三个数组在欧几里得距离上肯定是最接近的，因为你的基数组比第一个数组更接近零数组。它们可能有"相似的结构"，但你看错了。您的距离测量对数值距离感兴趣，0（在数组3中）比1（在数组1中）更接近0.25。

如果你在看"结构"，这意味着你认为0比任何其他数字都重要得多。即，您希望奖励在同一位置具有非零的匹配数组，而不是在数字上接近0。

我不确定你想要什么样的规范，老实说，这给我的印象是，我们错过了你在一天结束时需要实现的目标——对我们目前所知的情况提出建议有点困难。