Apache spark S3和spark。S3上有多个配置单元目标。对某些配置单元表使用s3:sse,对某些配置单元表不使用s3:sse
我想编写一个spark应用程序,其中我从多个配置单元表中读取数据并写入多个配置单元表。然而,这里有一个怪癖 所有配置单元表都是外部配置单元表,数据驻留在S3上 某些s3存储桶在写入时需要s3:sse加密,而某些存储桶则不需要 据我所知,我只能在全局级别设置属性fs.s3a.server-side-encryption-algorithm 我该怎么做呢。我非常确定这是一个常见的用例 我想我要问的问题如下 假设我正在spark应用程序中从配置单元表读取数据并写入配置单元表。 考虑两个蜂巢表与S3上的数据是外部的。 但是,该表从未加密的bucket读取数据,然后写入需要加密的bucket Hadoop 2.8.0允许您添加,这将允许您完全按照自己的意愿进行操作;当您升级Spark以使用2.8.0 JARs时,您可以使用Spark的此功能Apache spark S3和spark。S3上有多个配置单元目标。对某些配置单元表使用s3:sse,对某些配置单元表不使用s3:sse,apache-spark,amazon-s3,Apache Spark,Amazon S3,我想编写一个spark应用程序,其中我从多个配置单元表中读取数据并写入多个配置单元表。然而,这里有一个怪癖 所有配置单元表都是外部配置单元表,数据驻留在S3上 某些s3存储桶在写入时需要s3:sse加密,而某些存储桶则不需要 据我所知,我只能在全局级别设置属性fs.s3a.server-side-encryption-algorithm 我该怎么做呢。我非常确定这是一个常见的用例 我想我要问的问题如下 假设我正在spark应用程序中从配置单元表读取数据并写入配置单元表。 考虑两个蜂巢表与S3上的