Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/304.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/eclipse/9.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python pyspark将方法设置为内部_Python_Pandas_Apache Spark_Pyspark - Fatal编程技术网

Python pyspark将方法设置为内部

Python pyspark将方法设置为内部,python,pandas,apache-spark,pyspark,Python,Pandas,Apache Spark,Pyspark,pysparktopandas如何在内部工作。我知道Spark数据帧可以使用toPandas方法转换为Spark_df.toPandas格式的Pandas数据帧 触发方法topandas后,它是否将所有数据拉到驱动程序并转换为pandas数据帧,或者转换是否发生在worker中,pandas数据帧将在本地创建到worker节点?pandas数据帧不分布toPandas()将导致数据帧行收集到驱动程序,然后转换为一个数据帧,如中所述: toPandas() 收集所有行并返回pandas.DataF

pyspark
topandas
如何在内部工作。我知道Spark数据帧可以使用toPandas方法转换为Spark_df.toPandas格式的Pandas数据帧


触发方法
topandas
后,它是否将所有数据拉到驱动程序并转换为pandas数据帧,或者转换是否发生在worker中,pandas数据帧将在本地创建到worker节点?

pandas数据帧不分布
toPandas()
将导致数据帧行收集到驱动程序,然后转换为一个数据帧,如中所述:

toPandas()
收集所有行并返回pandas.DataFrame


因此,所有关于将数据收集到单个节点(本例中为驱动程序)的警告也适用于
toPandas

请记住,根据数据集的大小,驱动程序的内存可能会溢出,因为正如@ernest_k所述,所有数据都会发送到驱动程序,然后在驱动程序中创建
数据帧。