Python 读取Dataframewriter Pyspark编写的Csv文件_Python_Csv_Apache Spark_Dataframe_Pyspark

Python 读取Dataframewriter Pyspark编写的Csv文件

python csv apache-spark dataframe pyspark

Python 读取Dataframewriter Pyspark编写的Csv文件,python,csv,apache-spark,dataframe,pyspark,Python,Csv,Apache Spark,Dataframe,Pyspark,我使用以下代码将数据帧写入CSV： df.write.format("csv").save(base_path+"avg.csv") 当我在客户端模式下运行spark时，上面的代码片段创建了一个名为avg.csv的文件夹，该文件夹包含一些带有部分的文件-* .csv在我的工作节点或嵌套文件夹上，然后将部分文件-*.csv 现在，当我尝试读取avg.csv时，我得到的路径不存在 df.read.format("com.databricks.spark.csv").load(base_path+"

我使用以下代码将数据帧写入CSV：

df.write.format("csv").save(base_path+"avg.csv")

当我在客户端模式下运行spark时，上面的代码片段创建了一个名为avg.csv的文件夹，该文件夹包含一些带有部分的文件-* .csv在我的工作节点或嵌套文件夹上，然后将部分文件-*.csv

现在，当我尝试读取avg.csv时，我得到的路径不存在

df.read.format("com.databricks.spark.csv").load(base_path+"avg.csv")

有人能告诉我哪里做错了吗？

Part-00**

文件是分布式计算文件（如MR、spark）的输出。因此，当您尝试存储时，它将始终是使用零件文件创建的文件夹，因为这是一些分布式存储的输出，需要记住

因此，请尝试使用：

df.read.format("com.databricks.spark.csv").load(base_path+"avg.csv/*")

执行此操作时，我发现文件未找到异常：executor 2上不存在part-00*.csv。虽然这存在于集群中我的一个节点中