Cluster analysis DBSCAN邻域半径估计的解析方法

Cluster analysis DBSCAN邻域半径估计的解析方法,cluster-analysis,data-mining,dbscan,Cluster Analysis,Data Mining,Dbscan,我见过许多DBSCAN算法使用一个公式来实现,该公式基于簇内给定的最小点(k)来估计邻域半径(Eps) [完整代码] 我已经进行了广泛的搜索,以了解这个分析公式是如何推导出来的,但没有成功。它是有科学依据的,还是有人自己编出来的 这个公式看起来像 因此,这可能是基于这样一种想法,即如果数据均匀分布在立方体上,且所有边的长度相同,则该L2球体预计将具有此数量的点,而不考虑边界效应 但是,如果您的数据看起来像这样,则不需要运行集群。这些假设太强,在实际应用中没有意义 我认为用这个公式是不可取的! 特

我见过许多DBSCAN算法使用一个公式来实现,该公式基于簇内给定的最小点(k)来估计邻域半径(Eps)

[完整代码]


我已经进行了广泛的搜索,以了解这个分析公式是如何推导出来的,但没有成功。

它是有科学依据的,还是有人自己编出来的

这个公式看起来像

因此,这可能是基于这样一种想法,即如果数据均匀分布在立方体上,且所有边的长度相同,则该L2球体预计将具有此数量的点,而不考虑边界效应

但是,如果您的数据看起来像这样,则不需要运行集群。这些假设太强,在实际应用中没有意义

我认为用这个公式是不可取的! 特别是,如果你在文献中找不到证据或解释


我还建议不要使用此代码。他的“光学”实现是什么,但。。。有更好的、适当的实现。为了获得最佳结果,您还需要索引支持。

光学论文中描述了次优半径的估计

在分析数据中寻找自然模式。2.跟踪本地 光学密度

正如本文所概述的,有一些假设使这个公式变得有用


综上所述,引用这篇文章,可以将数据集对象的密度与数据集在同一体积内均匀分布的相同数量对象的密度进行比较。如果数据集具有均匀分布,则可以估计包含k个点的邻域半径eps

感谢您的推理。非常有用。
% Analytical calculation of rad if not given

function [Eps] = epsilon(x,k) 

[m,n] = size(x);

Eps = ((prod(max(x)-min(x))*k*gamma(.5*n+1))/(m*sqrt(pi.^n))).^(1/n);