Apache spark 不带扩展名的PySpark S3 Gzip文件
我正试图通过PySpark从S3读取一堆Gzip CSV文件。通常情况下,textFile或spark csv会自动解压缩gzip,但我正在处理的文件没有.gz扩展名,因此最终会被作为压缩文件读取。有数以百万计的文件,它们属于另一个团队,每天更新多次 有没有办法强制告诉textFile或spark csv API压缩样式?或者是否有其他方法可以复制和重命名文件?Related:Related:Apache spark 不带扩展名的PySpark S3 Gzip文件,apache-spark,amazon-s3,pyspark,Apache Spark,Amazon S3,Pyspark,我正试图通过PySpark从S3读取一堆Gzip CSV文件。通常情况下,textFile或spark csv会自动解压缩gzip,但我正在处理的文件没有.gz扩展名,因此最终会被作为压缩文件读取。有数以百万计的文件,它们属于另一个团队,每天更新多次 有没有办法强制告诉textFile或spark csv API压缩样式?或者是否有其他方法可以复制和重命名文件?Related:Related: