Python pyspark将方法设置为内部
pysparkPython pyspark将方法设置为内部,python,pandas,apache-spark,pyspark,Python,Pandas,Apache Spark,Pyspark,pysparktopandas如何在内部工作。我知道Spark数据帧可以使用toPandas方法转换为Spark_df.toPandas格式的Pandas数据帧 触发方法topandas后,它是否将所有数据拉到驱动程序并转换为pandas数据帧,或者转换是否发生在worker中,pandas数据帧将在本地创建到worker节点?pandas数据帧不分布toPandas()将导致数据帧行收集到驱动程序,然后转换为一个数据帧,如中所述: toPandas() 收集所有行并返回pandas.DataF
topandas
如何在内部工作。我知道Spark数据帧可以使用toPandas方法转换为Spark_df.toPandas格式的Pandas数据帧
触发方法
topandas
后,它是否将所有数据拉到驱动程序并转换为pandas数据帧,或者转换是否发生在worker中,pandas数据帧将在本地创建到worker节点?pandas数据帧不分布toPandas()
将导致数据帧行收集到驱动程序,然后转换为一个数据帧,如中所述:
toPandas()收集所有行并返回pandas.DataFrame
因此,所有关于将数据收集到单个节点(本例中为驱动程序)的警告也适用于
toPandas
。请记住,根据数据集的大小,驱动程序的内存可能会溢出,因为正如@ernest_k所述,所有数据都会发送到驱动程序,然后在驱动程序中创建数据帧。