如何改进pyspark中的.collect（）？_Pyspark_Pyspark Sql

如何改进pyspark中的.collect（）？

pyspark

如何改进pyspark中的.collect（）？,pyspark,pyspark-sql,Pyspark,Pyspark Sql,有没有其他方法可以优化pyspark，从而提高.collect（）的性能我正在使用映射（lambda row:row.asDict（），x.collect（）），对于10K记录，这需要5秒以上的时间。我没有尝试过，但可能 project可以帮助您您可以在收集之前将它们转换为dict，以便以分布式方式工作。x、映射（lambda行：row.asDict（））.collect（）。我认为这应该比收集后做要快。

有没有其他方法可以优化pyspark，从而提高.collect（）的性能

我正在使用

映射（lambda row:row.asDict（），x.collect（））

，对于10K记录，这需要5秒以上的时间。

我没有尝试过，但可能

project可以帮助您

您可以在收集之前将它们转换为dict，以便以分布式方式工作。x、映射（lambda行：row.asDict（））.collect（）。我认为这应该比收集后做要快。