Python pyspark中的PandasDataframe是否存储在spark驱动程序内存中?
我在一个纱线集群中运行Pypark。这只是我脑海中出现的一个问题。在spark群集中使用数据帧时,使用的是spark驱动程序的内存。如果使用to_csv()方法将该文件保存到csv中,该csv输出是否永久存储在驱动程序内存中,或者在关闭spark会话时删除该文件 Pyspark是分布式处理框架,而pandas在单个节点上运行代码,因此一旦将Pyspark数据帧转换为pandas数据帧,它就会在驱动程序本身上执行 当您执行pandas_df.to_csv时,它不会存储在内存中,而是存储在您提供的磁盘路径上。所以驱动程序内存不包含它Python pyspark中的PandasDataframe是否存储在spark驱动程序内存中?,python,pandas,apache-spark,pyspark,Python,Pandas,Apache Spark,Pyspark,我在一个纱线集群中运行Pypark。这只是我脑海中出现的一个问题。在spark群集中使用数据帧时,使用的是spark驱动程序的内存。如果使用to_csv()方法将该文件保存到csv中,该csv输出是否永久存储在驱动程序内存中,或者在关闭spark会话时删除该文件 Pyspark是分布式处理框架,而pandas在单个节点上运行代码,因此一旦将Pyspark数据帧转换为pandas数据帧,它就会在驱动程序本身上执行 当您执行pandas_df.to_csv时,它不会存储在内存中,而是存储在您提供的磁