Machine learning 如何处理K-means聚类中的缺失值?
我正在根据客户对不同类型产品类别的购买情况进行客户细分。 下面是我的数据的虚拟表示。(数据以客户购买的每个类别的总收入百分比表示): 正如上面的图片链接所示,虽然这些数据只有几个0,但原始数据有许多0。因此,将此数据用于kmeans聚类不会输出任何可接受的见解,并且会使数据向左倾斜。Machine learning 如何处理K-means聚类中的缺失值?,machine-learning,cluster-analysis,k-means,Machine Learning,Cluster Analysis,K Means,我正在根据客户对不同类型产品类别的购买情况进行客户细分。 下面是我的数据的虚拟表示。(数据以客户购买的每个类别的总收入百分比表示): 正如上面的图片链接所示,虽然这些数据只有几个0,但原始数据有许多0。因此,将此数据用于kmeans聚类不会输出任何可接受的见解,并且会使数据向左倾斜。 删除行或平均缺少的数据会产生误导:/ 如何处理缺失值这是你的选择,当然会影响你的聚类。没有一种“正确”的方法。 几种流行的方式: 用该特征的平均值/平均值填充每列缺少的值 引导:选择随机行并复制其值以填充缺少的值
删除行或平均缺少的数据会产生误导:/ 如何处理缺失值这是你的选择,当然会影响你的聚类。没有一种“正确”的方法。 几种流行的方式: