Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/364.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python pyspark中的PandasDataframe是否存储在spark驱动程序内存中?_Python_Pandas_Apache Spark_Pyspark - Fatal编程技术网

Python pyspark中的PandasDataframe是否存储在spark驱动程序内存中?

Python pyspark中的PandasDataframe是否存储在spark驱动程序内存中?,python,pandas,apache-spark,pyspark,Python,Pandas,Apache Spark,Pyspark,我在一个纱线集群中运行Pypark。这只是我脑海中出现的一个问题。在spark群集中使用数据帧时,使用的是spark驱动程序的内存。如果使用to_csv()方法将该文件保存到csv中,该csv输出是否永久存储在驱动程序内存中,或者在关闭spark会话时删除该文件 Pyspark是分布式处理框架,而pandas在单个节点上运行代码,因此一旦将Pyspark数据帧转换为pandas数据帧,它就会在驱动程序本身上执行 当您执行pandas_df.to_csv时,它不会存储在内存中,而是存储在您提供的磁

我在一个纱线集群中运行Pypark。这只是我脑海中出现的一个问题。在spark群集中使用数据帧时,使用的是spark驱动程序的内存。如果使用to_csv()方法将该文件保存到csv中,该csv输出是否永久存储在驱动程序内存中,或者在关闭spark会话时删除该文件

Pyspark是分布式处理框架,而pandas在单个节点上运行代码,因此一旦将Pyspark数据帧转换为pandas数据帧,它就会在驱动程序本身上执行

当您执行pandas_df.to_csv时,它不会存储在内存中,而是存储在您提供的磁盘路径上。所以驱动程序内存不包含它