Python 无法在AWS EMR上使用PySpark Dataframe保存CSV文件_Python_Csv_Apache Spark_Pyspark_Amazon Emr

Python 无法在AWS EMR上使用PySpark Dataframe保存CSV文件

python csv apache-spark pyspark

Python 无法在AWS EMR上使用PySpark Dataframe保存CSV文件,python,csv,apache-spark,pyspark,amazon-emr,Python,Csv,Apache Spark,Pyspark,Amazon Emr,我想用gzip压缩保存一个CSV文件。代码运行成功，但却以静默方式失败-即，我在提供的路径上看不到任何文件我尝试读取本应成功保存的文件，但运行命令file-I后得到的结果是“未找到此类文件” 我编写csv文件的代码是： >>> df DataFrame[id: int, name: string, alignment: string, gender: string, eyecolor: string, race: string, haircolor: string, publ

我想用gzip压缩保存一个CSV文件。代码运行成功，但却以静默方式失败-即，我在提供的路径上看不到任何文件

我尝试读取本应成功保存的文件，但运行命令

file-I

后得到的结果是“未找到此类文件”

我编写csv文件的代码是：

>>> df
DataFrame[id: int, name: string, alignment: string, gender: string, eyecolor: string, race: string, haircolor: string, publisher: string, skincolor: string, height: int, weight: int, _paseena_row_number_: bigint, _paseena_timestamp_: timestamp, _paseena_commit_id_: string]
>>> df.write.csv('check_csv_post_so.csv')
>>>

现在，当我检查时，没有文件

我会使用一些dfs未知的方法，但问题是，我在其他机器上使用过spark，但没有发现这样的问题

我希望文件存在，或者代码失败并显示错误。

我认为文件存储在HDFS上。尝试使用

file://

或

s3://

保存文件。或者使用

hdfs dfs-ls

查看文件是否存在

保存前运行df.show（）检查df中是否存在任何数据。