Machine learning 如何处理K-means聚类中的缺失值?

Machine learning 如何处理K-means聚类中的缺失值?,machine-learning,cluster-analysis,k-means,Machine Learning,Cluster Analysis,K Means,我正在根据客户对不同类型产品类别的购买情况进行客户细分。 下面是我的数据的虚拟表示。(数据以客户购买的每个类别的总收入百分比表示): 正如上面的图片链接所示,虽然这些数据只有几个0,但原始数据有许多0。因此,将此数据用于kmeans聚类不会输出任何可接受的见解,并且会使数据向左倾斜。 删除行或平均缺少的数据会产生误导:/ 如何处理缺失值这是你的选择,当然会影响你的聚类。没有一种“正确”的方法。 几种流行的方式: 用该特征的平均值/平均值填充每列缺少的值 引导:选择随机行并复制其值以填充缺少的值

我正在根据客户对不同类型产品类别的购买情况进行客户细分。 下面是我的数据的虚拟表示。(数据以客户购买的每个类别的总收入百分比表示):

正如上面的图片链接所示,虽然这些数据只有几个0,但原始数据有许多0。因此,将此数据用于kmeans聚类不会输出任何可接受的见解,并且会使数据向左倾斜。
删除行或平均缺少的数据会产生误导:/

如何处理缺失值这是你的选择,当然会影响你的聚类。没有一种“正确”的方法。 几种流行的方式:

  • 用该特征的平均值/平均值填充每列缺少的值
  • 引导:选择随机行并复制其值以填充缺少的值
  • 近邻:找到最近的邻居并根据其缺失的值填充
  • 如果看不到完整的数据,也不知道为什么要使用集群,就有点难以帮助。视情况而定

    你总是可以做一些特征提取(例如PCA),也许它会提供一些更好的见解