Apache spark Spark写入S3存储选项

Apache spark Spark写入S3存储选项,apache-spark,amazon-s3,Apache Spark,Amazon S3,我正在将spark数据帧保存到S3存储桶。保存的文件的默认存储类型为标准。我需要它是标准的。实现这一目标的选择是什么。我查看了spark源代码,在中没有找到spark DataFrameWriter的此类选项 下面是我用来编写S3的代码: val df = spark.sql(<sql>) df.coalesce(1).write.mode("overwrite").parquet(<s3path>) val df=spark.sql() 聚合(1).write.mod

我正在将spark数据帧保存到S3存储桶。保存的文件的默认存储类型为标准。我需要它是标准的。实现这一目标的选择是什么。我查看了spark源代码,在中没有找到spark DataFrameWriter的此类选项

下面是我用来编写S3的代码:

val df = spark.sql(<sql>)
df.coalesce(1).write.mode("overwrite").parquet(<s3path>)
val df=spark.sql()
聚合(1).write.mode(“覆盖”).parquet()
编辑:我现在使用CopyObjectRequest更改创建的拼花地板的存储类型:

val copyObjectRequest = new CopyObjectRequest(bucket, key, bucket, key).withStorageClass(<storageClass>)
s3Client.copyObject(copyObjectRequest)
val copyObjectRequest=新的copyObjectRequest(bucket,key,bucket,key)。with存储类()
s3Client.copyObject(copyObjectRequest)

使用S3A连接器不可能;由一名志愿者来实施所有的测试。FWIW,测试才是最难的部分。我不知道亚马逊自己的连接器

为什么不为水桶定义一个生命周期,让它每晚都移动