Python 读取Dataframewriter Pyspark编写的Csv文件

Python 读取Dataframewriter Pyspark编写的Csv文件,python,csv,apache-spark,dataframe,pyspark,Python,Csv,Apache Spark,Dataframe,Pyspark,我使用以下代码将数据帧写入CSV: df.write.format("csv").save(base_path+"avg.csv") 当我在客户端模式下运行spark时,上面的代码片段创建了一个名为avg.csv的文件夹,该文件夹包含一些带有部分的文件-* .csv在我的工作节点或嵌套文件夹上,然后将部分文件-*.csv 现在,当我尝试读取avg.csv时,我得到的路径不存在 df.read.format("com.databricks.spark.csv").load(base_path+"

我使用以下代码将数据帧写入CSV:

df.write.format("csv").save(base_path+"avg.csv")
当我在客户端模式下运行spark时,上面的代码片段创建了一个名为avg.csv的文件夹,该文件夹包含一些带有部分的文件-* .csv在我的工作节点或嵌套文件夹上,然后将部分文件-*.csv

现在,当我尝试读取avg.csv时,我得到的路径不存在

df.read.format("com.databricks.spark.csv").load(base_path+"avg.csv")

有人能告诉我哪里做错了吗?

Part-00**
文件是分布式计算文件(如MR、spark)的输出。因此,当您尝试存储时,它将始终是使用零件文件创建的文件夹,因为这是一些分布式存储的输出,需要记住

因此,请尝试使用:

df.read.format("com.databricks.spark.csv").load(base_path+"avg.csv/*")

执行此操作时,我发现文件未找到异常:executor 2上不存在part-00*.csv。虽然这存在于集群中我的一个节点中