如何改进pyspark中的.collect()?

如何改进pyspark中的.collect()?,pyspark,pyspark-sql,Pyspark,Pyspark Sql,有没有其他方法可以优化pyspark,从而提高.collect()的性能 我正在使用映射(lambda row:row.asDict(),x.collect()),对于10K记录,这需要5秒以上的时间。我没有尝试过,但可能 project可以帮助您您可以在收集之前将它们转换为dict,以便以分布式方式工作。x、 映射(lambda行:row.asDict()).collect()。我认为这应该比收集后做要快。

有没有其他方法可以优化pyspark,从而提高.collect()的性能


我正在使用
映射(lambda row:row.asDict(),x.collect())
,对于10K记录,这需要5秒以上的时间。

我没有尝试过,但可能
project可以帮助您

您可以在收集之前将它们转换为dict,以便以分布式方式工作。x、 映射(lambda行:row.asDict()).collect()。我认为这应该比收集后做要快。