Dataframe spark中的Groupby/Partitionby
我有一个带有批号的500K记录的数据帧,我试图根据批号将大数据帧拆分为多个小数据帧Dataframe spark中的Groupby/Partitionby,dataframe,apache-spark,Dataframe,Apache Spark,我有一个带有批号的500K记录的数据帧,我试图根据批号将大数据帧拆分为多个小数据帧 df.select("batch").distinct.map(_.getLong(0)).collect.toList 如果groupby和partitionby在这里有帮助,这是实现这一点的最佳方法吗?我无法将partitionby输出保存为分块数据帧
df.select("batch").distinct.map(_.getLong(0)).collect.toList
如果groupby
和partitionby
在这里有帮助,这是实现这一点的最佳方法吗?我无法将partitionby
输出保存为分块数据帧