Algorithm 数据挖掘中数据集稀疏性的影响

Algorithm 数据挖掘中数据集稀疏性的影响,algorithm,data-mining,information-retrieval,Algorithm,Data Mining,Information Retrieval,我想问一下,当使用距离矩阵(欧几里德矩阵)时,数据集中的稀疏性(大多数维度中的多个零值)将如何影响搜索效率或准确性。我在ANN和FLANN中测试过这样的稀疏数据集,与密集数据集相比,我花了很长时间搜索它的最近邻。为什么会这样?这是一个非常广泛的问题,如果没有具体细节,很难回答。但让我试试看 在欧几里德空间中寻找最近邻通常需要大约m*n的计算,其中m是维数,n是样本数。您可以使用m*n绘制每个数据集的时间统计数据,并查看它们的比较情况 对于稀疏数据集,还可以以字典格式存储样本。在这种情况下,平均时

我想问一下,当使用距离矩阵(欧几里德矩阵)时,数据集中的稀疏性(大多数维度中的多个零值)将如何影响搜索效率或准确性。我在ANN和FLANN中测试过这样的稀疏数据集,与密集数据集相比,我花了很长时间搜索它的最近邻。为什么会这样?

这是一个非常广泛的问题,如果没有具体细节,很难回答。但让我试试看

在欧几里德空间中寻找最近邻通常需要大约m*n的计算,其中m是维数,n是样本数。您可以使用m*n绘制每个数据集的时间统计数据,并查看它们的比较情况


对于稀疏数据集,还可以以字典格式存储样本。在这种情况下,平均时间大约是k*logk*n计算,其中k是非零元素的平均数量(假设字典的存储方式是每个功能的随机访问时间为logk。如果使用哈希表之类的东西,logk部分几乎是不可见的)。

这在很大程度上取决于您的实现。例如,在距离计算中使用了什么,稀疏优化吗?欧几里德距离不是稀疏向量最合理的距离,顺便说一句。

i a.m使用随机k-d树和优先搜索树,没有实现稀疏优化。为什么欧几里德距离对稀疏向量不起作用?