Machine learning 多维异构空间上的K-均值聚类

Machine learning 多维异构空间上的K-均值聚类,machine-learning,cluster-analysis,data-mining,k-means,Machine Learning,Cluster Analysis,Data Mining,K Means,我试图聚类的数据集由多个异构维度组成。 比如说 <A, B, C, D> 其中,A,B为横向,纵向。 C是一个数字。 D是一个二进制值 在这种情况下,解决集群问题的最佳方法是什么? 我应该对数据进行标准化以使其同质化,还是应该对每个同质维度集运行单独的聚类问题?k-means不是一个好的选择,因为它不会处理180°环绕,并且除了赤道以外的任何地方的距离都会扭曲。IIRC在美国北部和欧洲大部分地区,失真已经超过20% 类似地,对二进制数据使用k-均值也没有意义——准确地说,均值

我试图聚类的数据集由多个异构维度组成。
比如说

<A, B, C, D> 

其中,A,B为横向,纵向。
C是一个数字。
D是一个二进制值

在这种情况下,解决集群问题的最佳方法是什么?
我应该对数据进行标准化以使其同质化,还是应该对每个同质维度集运行单独的聚类问题?

k-means不是一个好的选择,因为它不会处理180°环绕,并且除了赤道以外的任何地方的距离都会扭曲。IIRC在美国北部和欧洲大部分地区,失真已经超过20%

类似地,对二进制数据使用k-均值也没有意义——准确地说,均值没有意义

使用可以处理任意距离的算法,并在特定数据集上构造用于解决问题的组合距离函数


然后使用PAM或DBSCAN或分层链接聚类等任何其他适用于任意距离函数的算法。

二进制特征的平均值可视为该特征的频率。在某些情况下,可以通过v-\bar{v}标准化二进制特征v

但是,在您的案例中,我认为您在三个不同的要素空间中有三个要素。我将通过创建三个距离d_v来解决这个问题,其中一个适合于v中的每个特征。两个实体之间的距离,比如x和y将由d(x,y)\sum_{v\in v}w_v d_v(x_{v},y_{v})给出。您可以使用w_v,但我可能会将其限制为\sum_{v\in v}w_v=1和{v}{v\in v}\geq 0

以上只是一些简单的想法,祝你好运! PS:对不起,我是新来的,我不知道怎么把文字放在这里