Parameters 无输入参数的数据聚类_Parameters_Machine Learning_Hierarchical Clustering

Parameters 无输入参数的数据聚类

parameters machine-learning

Parameters 无输入参数的数据聚类,parameters,machine-learning,hierarchical-clustering,Parameters,Machine Learning,Hierarchical Clustering,这更像是一个理论问题：您是否知道任何不需要任何输入参数的聚类算法（平面或层次），如聚类数量或邻域大小等？换句话说，您只需将数据作为输入提供给算法，并将集群作为输出如果能在相关论文/文档中得到建议，我会很高兴。通常，一旦你定义了集群的含义，答案就会显现出来。这是最难的部分对于实值数据，我喜欢使用带有自动h选择的均值漂移。聚类对应于数据密度图中的模式，分组结果类似于分水岭变换在仍然被认为是开放的研究问题中，自动确定集群的数量确实是一个难题最先进的聚类技术之一是将数据建模为Dirichl

这更像是一个理论问题：

您是否知道任何不需要任何输入参数的聚类算法（平面或层次），如聚类数量或邻域大小等？换句话说，您只需将数据作为输入提供给算法，并将集群作为输出

如果能在相关论文/文档中得到建议，我会很高兴。

通常，一旦你定义了集群的含义，答案就会显现出来。这是最难的部分

对于实值数据，我喜欢使用带有自动h选择的均值漂移。聚类对应于数据密度图中的模式，分组结果类似于分水岭变换

在仍然被认为是开放的研究问题中，自动确定集群的数量确实是一个难题

最先进的聚类技术之一是将数据建模为Dirichlet过程，但这并不简单，而且需要贝叶斯方法和马尔可夫链蒙特卡罗（MCMC）估计的坚实背景

这种方法可以自动估计簇的数量。

这不是完全无参数的，因为您必须在Dirichlet过程中设置浓度参数，但您可以合理地论证，相对于簇的数量，这并不重要。不过，您确实需要担心指定似然函数，如果您不具备统计学思维，这可能是非常重要的。您是对的，很难考虑绝对无参数技术，或者在这种情况下，浓度参数可以被视为超参数。