Python 如何对游戏数据进行预处理-k-均值

Python 如何对游戏数据进行预处理-k-均值,python,cluster-analysis,data-mining,k-means,Python,Cluster Analysis,Data Mining,K Means,我有一个用户分数表,如下所示: user_id score duration_of_per_play start_date 1 56 313 2018-01-09 2 14 560 2018-08-01 1 56 113 2018-01-09 4 14 340 2018-

我有一个用户分数表,如下所示:

user_id  score duration_of_per_play  start_date
  1        56    313                 2018-01-09
  2        14    560                 2018-08-01
  1        56    113                 2018-01-09
  4        14    340                 2018-08-01
....
现在我想使用
k-means
算法对用户集群进行分类。 只是我知道我没有
缺失值
异常值

但我不知道:

  • 下一步是什么
  • 我需要对数据进行
    居中

  • 我有42000张这场比赛的记录。我想根据
    得分和
    每次播放的持续时间对用户进行聚类
    K-means本身不需要预先居中,但由于使用的功能规模不同,您将从标准化数据中获益。
    因此,我建议减去平均值并除以STD(当然是每个轴),然后只使用许多k-平均值实现中的一种。
    我也读过关于k-means和关于选择集群数量、处理异常值等的不同选项,但这并不是你问的“下一步”。
    祝你好运



    这是一个很好的实现,您可以从它开始:

    您是否有异常值和/或缺失值?创建一个特征向量(可能是其中的一行)并将其填充到一个列表中。估计的平均值(KMeans类的属性)将生成您的结果。注1:不需要,您不需要将数据集中。注2:检查这是否真的符合您的需要。@Shlomif谢谢您的评论,我对异常值进行预处理,并且没有任何缺失值,因为我从API中收集了这些记录,所有验证都完成了。是的。但同样,一些预处理可以有所帮助。我的回答有用吗?