Pyspark Spark collect_list是否向驾驶员发送数据?

Pyspark Spark collect_list是否向驾驶员发送数据?,pyspark,Pyspark,使用pyspark中的此代码段: df.groupBy('id').agg(collect_list('feature')) 我的驱动程序内存一直不足。 所以,我假设收集过程发生在驱动程序上。 如果这是正确的,那么在Scala中实现UDAF是否是避免此OOM的唯一选项 谢谢不,这里的“收集”有点误导。嘿,我也有类似的错误。你找到答案了吗?没有。如果我没记错的话,只需重新启动集群就可以解决问题。

使用pyspark中的此代码段:

 df.groupBy('id').agg(collect_list('feature'))
我的驱动程序内存一直不足。 所以,我假设收集过程发生在驱动程序上。 如果这是正确的,那么在Scala中实现UDAF是否是避免此OOM的唯一选项


谢谢

不,这里的“收集”有点误导。

嘿,我也有类似的错误。你找到答案了吗?没有。如果我没记错的话,只需重新启动集群就可以解决问题。