Machine learning 多维异构空间上的K-均值聚类_Machine Learning_Cluster Analysis_Data Mining_K Means

Machine learning 多维异构空间上的K-均值聚类

machine-learning

Machine learning 多维异构空间上的K-均值聚类,machine-learning,cluster-analysis,data-mining,k-means,Machine Learning,Cluster Analysis,Data Mining,K Means,我试图聚类的数据集由多个异构维度组成。比如说 <A, B, C, D> 其中，A，B为横向，纵向。 C是一个数字。 D是一个二进制值在这种情况下，解决集群问题的最佳方法是什么？我应该对数据进行标准化以使其同质化，还是应该对每个同质维度集运行单独的聚类问题？k-means不是一个好的选择，因为它不会处理180°环绕，并且除了赤道以外的任何地方的距离都会扭曲。IIRC在美国北部和欧洲大部分地区，失真已经超过20% 类似地，对二进制数据使用k-均值也没有意义——准确地说，均值

我试图聚类的数据集由多个异构维度组成。
比如说

<A, B, C, D>

其中，A，B为横向，纵向。
C是一个数字。
D是一个二进制值

在这种情况下，解决集群问题的最佳方法是什么？

我应该对数据进行标准化以使其同质化，还是应该对每个同质维度集运行单独的聚类问题？

k-means不是一个好的选择，因为它不会处理180°环绕，并且除了赤道以外的任何地方的距离都会扭曲。IIRC在美国北部和欧洲大部分地区，失真已经超过20%

类似地，对二进制数据使用k-均值也没有意义——准确地说，均值没有意义

使用可以处理任意距离的算法，并在特定数据集上构造用于解决问题的组合距离函数

然后使用PAM或DBSCAN或分层链接聚类等任何其他适用于任意距离函数的算法。

二进制特征的平均值可视为该特征的频率。在某些情况下，可以通过v-\bar{v}标准化二进制特征v

但是，在您的案例中，我认为您在三个不同的要素空间中有三个要素。我将通过创建三个距离d_v来解决这个问题，其中一个适合于v中的每个特征。两个实体之间的距离，比如x和y将由d（x，y）\sum_{v\in v}w_v d_v（x_{v}，y_{v}）给出。您可以使用w_v，但我可能会将其限制为\sum_{v\in v}w_v=1和{v}{v\in v}\geq 0

以上只是一些简单的想法，祝你好运！ PS：对不起，我是新来的，我不知道怎么把文字放在这里