Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/cassandra/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何使用pyspark dataframe编写tab.gz文件_Pyspark_Apache Spark Sql_Pyspark Dataframes - Fatal编程技术网

如何使用pyspark dataframe编写tab.gz文件

如何使用pyspark dataframe编写tab.gz文件,pyspark,apache-spark-sql,pyspark-dataframes,Pyspark,Apache Spark Sql,Pyspark Dataframes,我有一个Pyspark数据框,我希望我的输出文件在tab.gz扩展名中 df.write\ .option("delimiter", "\t")\ .option("codec", "org.apache.hadoop.io.compress.GzipCodec")\ .save( s3_directory, format

我有一个Pyspark数据框,我希望我的输出文件在tab.gz扩展名中

df.write\
        .option("delimiter", "\t")\
        .option("codec", "org.apache.hadoop.io.compress.GzipCodec")\
        .save(
            s3_directory,
            format='csv',
            header=True,
            emptyValue='',
            compression="gzip"
    )
这会将输出文件创建为

部分xyz.csv.gz

如何更改配置以使其另存为部分xyz.tab.gz请?

由于“tab.gz”看起来像输入错误,您是否尝试指定“path”参数:

file_path = s3_directory + "part-xyz.tab.gz"
df.write\
    .option("delimiter", "\t")\
    .option("codec", "org.apache.hadoop.io.compress.GzipCodec")\
    .save(
        path=file_path,
        format='csv',
        header=True,
        emptyValue='',
        compression="gzip"
)

你的意思是tar.gz,不是tab.gz吗?@mck:我已经明确指定了tab.gz。所以我想我需要tab.gz