Python pyspark将方法设置为内部_Python_Pandas_Apache Spark_Pyspark

Python pyspark将方法设置为内部

python pandas apache-spark pyspark

Python pyspark将方法设置为内部,python,pandas,apache-spark,pyspark,Python,Pandas,Apache Spark,Pyspark,pysparktopandas如何在内部工作。我知道Spark数据帧可以使用toPandas方法转换为Spark_df.toPandas格式的Pandas数据帧触发方法topandas后，它是否将所有数据拉到驱动程序并转换为pandas数据帧，或者转换是否发生在worker中，pandas数据帧将在本地创建到worker节点？pandas数据帧不分布toPandas（）将导致数据帧行收集到驱动程序，然后转换为一个数据帧，如中所述： toPandas（）收集所有行并返回pandas.DataF

pyspark

topandas

如何在内部工作。我知道Spark数据帧可以使用toPandas方法转换为Spark_df.toPandas格式的Pandas数据帧

触发方法

topandas

后，它是否将所有数据拉到驱动程序并转换为pandas数据帧，或者转换是否发生在worker中，pandas数据帧将在本地创建到worker节点？

pandas数据帧不分布

toPandas（）

将导致数据帧行收集到驱动程序，然后转换为一个数据帧，如中所述：

toPandas（）
收集所有行并返回pandas.DataFrame

因此，所有关于将数据收集到单个节点（本例中为驱动程序）的警告也适用于

toPandas

。

请记住，根据数据集的大小，驱动程序的内存可能会溢出，因为正如@ernest_k所述，所有数据都会发送到驱动程序，然后在驱动程序中创建

数据帧。