Machine learning 如何处理K-means聚类中的缺失值？_Machine Learning_Cluster Analysis_K Means

Machine learning 如何处理K-means聚类中的缺失值？

machine-learning

Machine learning 如何处理K-means聚类中的缺失值？,machine-learning,cluster-analysis,k-means,Machine Learning,Cluster Analysis,K Means,我正在根据客户对不同类型产品类别的购买情况进行客户细分。下面是我的数据的虚拟表示。（数据以客户购买的每个类别的总收入百分比表示）：正如上面的图片链接所示，虽然这些数据只有几个0，但原始数据有许多0。因此，将此数据用于kmeans聚类不会输出任何可接受的见解，并且会使数据向左倾斜。删除行或平均缺少的数据会产生误导：/ 如何处理缺失值这是你的选择，当然会影响你的聚类。没有一种“正确”的方法。几种流行的方式：用该特征的平均值/平均值填充每列缺少的值引导：选择随机行并复制其值以填充缺少的值

我正在根据客户对不同类型产品类别的购买情况进行客户细分。下面是我的数据的虚拟表示。（数据以客户购买的每个类别的总收入百分比表示）：

正如上面的图片链接所示，虽然这些数据只有几个0，但原始数据有许多0。因此，将此数据用于kmeans聚类不会输出任何可接受的见解，并且会使数据向左倾斜。

删除行或平均缺少的数据会产生误导：/

如何处理缺失值这是你的选择，当然会影响你的聚类。没有一种“正确”的方法。几种流行的方式：

用该特征的平均值/平均值填充每列缺少的值

引导：选择随机行并复制其值以填充缺少的值

近邻：找到最近的邻居并根据其缺失的值填充

如果看不到完整的数据，也不知道为什么要使用集群，就有点难以帮助。视情况而定

你总是可以做一些特征提取（例如PCA），也许它会提供一些更好的见解