在PySpark中加速重复的KMeans_Pyspark

在PySpark中加速重复的KMeans

pyspark

在PySpark中加速重复的KMeans,pyspark,Pyspark,我目前有一个10亿行的数据框，记录了100万人的通勤时间。有两列，一列是每个人的唯一ID，另一列是时间我想根据每个人的通勤时间对他们执行KMeans聚类。选择一个人的通勤时间并执行Kmeans非常快，但执行一百万次需要很长时间我现在正在做的是： for i in distinct_commuter_id: df_input = df.filter(df['id']==i) ... # run KMeans on df_input 如有任何建议，将不胜感激

我目前有一个10亿行的数据框，记录了100万人的通勤时间。有两列，一列是每个人的唯一ID，另一列是时间

我想根据每个人的通勤时间对他们执行KMeans聚类。选择一个人的通勤时间并执行Kmeans非常快，但执行一百万次需要很长时间

我现在正在做的是：

for i in distinct_commuter_id:
    df_input = df.filter(df['id']==i)
    ... # run KMeans on df_input

如有任何建议，将不胜感激