如何使用Python在HDFS中打开拼花地板文件?

如何使用Python在HDFS中打开拼花地板文件?,python,pyspark,parquet,Python,Pyspark,Parquet,我希望读取一个存储在HDFS中的拼花文件,我正在使用Python来实现这一点。我有下面的代码,但它不会在HDFS中打开文件。你能帮我修改代码吗 sc = spark.sparkContext from pyspark.sql import SQLContext sqlContext = SQLContext(sc) df = sqlContext.read.parquet('path-to-file/commentClusters.parquet') 此外,我还希望将数据帧保存为CSV文件

我希望读取一个存储在HDFS中的拼花文件,我正在使用Python来实现这一点。我有下面的代码,但它不会在HDFS中打开文件。你能帮我修改代码吗

sc = spark.sparkContext

from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)

df = sqlContext.read.parquet('path-to-file/commentClusters.parquet')
此外,我还希望将数据帧保存为CSV文件。

尝试一下

sqlContext.read.parquet("hdfs://<host:port>/path-to-file/commentClusters.parquet")

提及

要保存为csv,请尝试

df_result.write.csv(path=res_path) # possible options: header=True, compression='gzip'
sqlContext.read.parquet("hdfs:/path-to-file/commentClusters.parquet")
df_result.write.csv(path=res_path) # possible options: header=True, compression='gzip'