如何使用Python在HDFS中打开拼花地板文件?
我希望读取一个存储在HDFS中的拼花文件,我正在使用Python来实现这一点。我有下面的代码,但它不会在HDFS中打开文件。你能帮我修改代码吗如何使用Python在HDFS中打开拼花地板文件?,python,pyspark,parquet,Python,Pyspark,Parquet,我希望读取一个存储在HDFS中的拼花文件,我正在使用Python来实现这一点。我有下面的代码,但它不会在HDFS中打开文件。你能帮我修改代码吗 sc = spark.sparkContext from pyspark.sql import SQLContext sqlContext = SQLContext(sc) df = sqlContext.read.parquet('path-to-file/commentClusters.parquet') 此外,我还希望将数据帧保存为CSV文件
sc = spark.sparkContext
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
df = sqlContext.read.parquet('path-to-file/commentClusters.parquet')
此外,我还希望将数据帧保存为CSV文件。尝试一下
sqlContext.read.parquet("hdfs://<host:port>/path-to-file/commentClusters.parquet")
或
提及
要保存为csv,请尝试
df_result.write.csv(path=res_path) # possible options: header=True, compression='gzip'
sqlContext.read.parquet("hdfs:/path-to-file/commentClusters.parquet")
df_result.write.csv(path=res_path) # possible options: header=True, compression='gzip'