在PySpark中加速重复的KMeans

在PySpark中加速重复的KMeans,pyspark,Pyspark,我目前有一个10亿行的数据框,记录了100万人的通勤时间。有两列,一列是每个人的唯一ID,另一列是时间 我想根据每个人的通勤时间对他们执行KMeans聚类。选择一个人的通勤时间并执行Kmeans非常快,但执行一百万次需要很长时间 我现在正在做的是: for i in distinct_commuter_id: df_input = df.filter(df['id']==i) ... # run KMeans on df_input 如有任何建议,将不胜感激

我目前有一个10亿行的数据框,记录了100万人的通勤时间。有两列,一列是每个人的唯一ID,另一列是时间

我想根据每个人的通勤时间对他们执行KMeans聚类。选择一个人的通勤时间并执行Kmeans非常快,但执行一百万次需要很长时间

我现在正在做的是:

for i in distinct_commuter_id:
    df_input = df.filter(df['id']==i)
    ... # run KMeans on df_input
如有任何建议,将不胜感激