Algorithm 数据挖掘中数据集稀疏性的影响_Algorithm_Data Mining_Information Retrieval

Algorithm 数据挖掘中数据集稀疏性的影响

algorithm

Algorithm 数据挖掘中数据集稀疏性的影响,algorithm,data-mining,information-retrieval,Algorithm,Data Mining,Information Retrieval,我想问一下，当使用距离矩阵（欧几里德矩阵）时，数据集中的稀疏性（大多数维度中的多个零值）将如何影响搜索效率或准确性。我在ANN和FLANN中测试过这样的稀疏数据集，与密集数据集相比，我花了很长时间搜索它的最近邻。为什么会这样？这是一个非常广泛的问题，如果没有具体细节，很难回答。但让我试试看在欧几里德空间中寻找最近邻通常需要大约m*n的计算，其中m是维数，n是样本数。您可以使用m*n绘制每个数据集的时间统计数据，并查看它们的比较情况对于稀疏数据集，还可以以字典格式存储样本。在这种情况下，平均时

我想问一下，当使用距离矩阵（欧几里德矩阵）时，数据集中的稀疏性（大多数维度中的多个零值）将如何影响搜索效率或准确性。我在ANN和FLANN中测试过这样的稀疏数据集，与密集数据集相比，我花了很长时间搜索它的最近邻。为什么会这样？

这是一个非常广泛的问题，如果没有具体细节，很难回答。但让我试试看

在欧几里德空间中寻找最近邻通常需要大约m*n的计算，其中m是维数，n是样本数。您可以使用m*n绘制每个数据集的时间统计数据，并查看它们的比较情况

对于稀疏数据集，还可以以字典格式存储样本。在这种情况下，平均时间大约是k*logk*n计算，其中k是非零元素的平均数量（假设字典的存储方式是每个功能的随机访问时间为logk。如果使用哈希表之类的东西，logk部分几乎是不可见的）。

这在很大程度上取决于您的实现。例如，在距离计算中使用了什么，稀疏优化吗？欧几里德距离不是稀疏向量最合理的距离，顺便说一句。

i a.m使用随机k-d树和优先搜索树，没有实现稀疏优化。为什么欧几里德距离对稀疏向量不起作用？