如何使用pyspark dataframe编写tab.gz文件_Pyspark_Apache Spark Sql_Pyspark Dataframes

如何使用pyspark dataframe编写tab.gz文件

pyspark

如何使用pyspark dataframe编写tab.gz文件,pyspark,apache-spark-sql,pyspark-dataframes,Pyspark,Apache Spark Sql,Pyspark Dataframes,我有一个Pyspark数据框，我希望我的输出文件在tab.gz扩展名中 df.write\ .option("delimiter", "\t")\ .option("codec", "org.apache.hadoop.io.compress.GzipCodec")\ .save( s3_directory, format

我有一个Pyspark数据框，我希望我的输出文件在tab.gz扩展名中

df.write\
        .option("delimiter", "\t")\
        .option("codec", "org.apache.hadoop.io.compress.GzipCodec")\
        .save(
            s3_directory,
            format='csv',
            header=True,
            emptyValue='',
            compression="gzip"
    )

这会将输出文件创建为

部分xyz.csv.gz

如何更改配置以使其另存为部分xyz.tab.gz请？

由于“tab.gz”看起来像输入错误，您是否尝试指定“path”参数：

file_path = s3_directory + "part-xyz.tab.gz"
df.write\
    .option("delimiter", "\t")\
    .option("codec", "org.apache.hadoop.io.compress.GzipCodec")\
    .save(
        path=file_path,
        format='csv',
        header=True,
        emptyValue='',
        compression="gzip"
)

你的意思是tar.gz，不是tab.gz吗？@mck：我已经明确指定了tab.gz。所以我想我需要tab.gz