Parameters 无输入参数的数据聚类

Parameters 无输入参数的数据聚类,parameters,machine-learning,hierarchical-clustering,Parameters,Machine Learning,Hierarchical Clustering,这更像是一个理论问题: 您是否知道任何不需要任何输入参数的聚类算法(平面或层次),如聚类数量或邻域大小等?换句话说,您只需将数据作为输入提供给算法,并将集群作为输出 如果能在相关论文/文档中得到建议,我会很高兴。通常,一旦你定义了集群的含义,答案就会显现出来。这是最难的部分 对于实值数据,我喜欢使用带有自动h选择的均值漂移。聚类对应于数据密度图中的模式,分组结果类似于分水岭变换 在仍然被认为是开放的研究问题中,自动确定集群的数量确实是一个难题 最先进的聚类技术之一是将数据建模为Dirichl

这更像是一个理论问题:

您是否知道任何不需要任何输入参数的聚类算法(平面或层次),如聚类数量或邻域大小等?换句话说,您只需将数据作为输入提供给算法,并将集群作为输出


如果能在相关论文/文档中得到建议,我会很高兴。

通常,一旦你定义了集群的含义,答案就会显现出来。这是最难的部分

对于实值数据,我喜欢使用带有自动h选择的均值漂移。聚类对应于数据密度图中的模式,分组结果类似于分水岭变换




在仍然被认为是开放的研究问题中,自动确定集群的数量确实是一个难题

最先进的聚类技术之一是将数据建模为Dirichlet过程,但这并不简单,而且需要贝叶斯方法和马尔可夫链蒙特卡罗(MCMC)估计的坚实背景


这种方法可以自动估计簇的数量。

这不是完全无参数的,因为您必须在Dirichlet过程中设置浓度参数,但您可以合理地论证,相对于簇的数量,这并不重要。不过,您确实需要担心指定似然函数,如果您不具备统计学思维,这可能是非常重要的。您是对的,很难考虑绝对无参数技术,或者在这种情况下,浓度参数可以被视为超参数。