如何使用pyspark dataframe编写tab.gz文件
我有一个Pyspark数据框,我希望我的输出文件在tab.gz扩展名中如何使用pyspark dataframe编写tab.gz文件,pyspark,apache-spark-sql,pyspark-dataframes,Pyspark,Apache Spark Sql,Pyspark Dataframes,我有一个Pyspark数据框,我希望我的输出文件在tab.gz扩展名中 df.write\ .option("delimiter", "\t")\ .option("codec", "org.apache.hadoop.io.compress.GzipCodec")\ .save( s3_directory, format
df.write\
.option("delimiter", "\t")\
.option("codec", "org.apache.hadoop.io.compress.GzipCodec")\
.save(
s3_directory,
format='csv',
header=True,
emptyValue='',
compression="gzip"
)
这会将输出文件创建为
部分xyz.csv.gz
如何更改配置以使其另存为部分xyz.tab.gz请?由于“tab.gz”看起来像输入错误,您是否尝试指定“path”参数:
file_path = s3_directory + "part-xyz.tab.gz"
df.write\
.option("delimiter", "\t")\
.option("codec", "org.apache.hadoop.io.compress.GzipCodec")\
.save(
path=file_path,
format='csv',
header=True,
emptyValue='',
compression="gzip"
)
你的意思是tar.gz,不是tab.gz吗?@mck:我已经明确指定了tab.gz。所以我想我需要tab.gz