Apache spark Spark写入S3存储选项_Apache Spark_Amazon S3

Apache spark Spark写入S3存储选项

apache-spark amazon-s3

Apache spark Spark写入S3存储选项,apache-spark,amazon-s3,Apache Spark,Amazon S3,我正在将spark数据帧保存到S3存储桶。保存的文件的默认存储类型为标准。我需要它是标准的。实现这一目标的选择是什么。我查看了spark源代码，在中没有找到spark DataFrameWriter的此类选项下面是我用来编写S3的代码： val df = spark.sql(<sql>) df.coalesce(1).write.mode("overwrite").parquet(<s3path>) val df=spark.sql（）聚合（1）.write.mod

我正在将spark数据帧保存到S3存储桶。保存的文件的默认存储类型为标准。我需要它是标准的。实现这一目标的选择是什么。我查看了spark源代码，在中没有找到spark DataFrameWriter的此类选项

下面是我用来编写S3的代码：

val df = spark.sql(<sql>)
df.coalesce(1).write.mode("overwrite").parquet(<s3path>)

val df=spark.sql（）
聚合（1）.write.mode（“覆盖”）.parquet（）

编辑：我现在使用CopyObjectRequest更改创建的拼花地板的存储类型：

val copyObjectRequest = new CopyObjectRequest(bucket, key, bucket, key).withStorageClass(<storageClass>)
s3Client.copyObject(copyObjectRequest)

val copyObjectRequest=新的copyObjectRequest（bucket，key，bucket，key）。with存储类（）
s3Client.copyObject（copyObjectRequest）

使用S3A连接器不可能；由一名志愿者来实施所有的测试。FWIW，测试才是最难的部分。我不知道亚马逊自己的连接器

为什么不为水桶定义一个生命周期，让它每晚都移动