File upload 从ApacheSpark多部分上传到AmazonS3
如何使ApacheSpark在将数据保存到AmazonS3时使用多部分上传。Spark使用File upload 从ApacheSpark多部分上传到AmazonS3,file-upload,amazon-s3,apache-spark,jets3t,File Upload,Amazon S3,Apache Spark,Jets3t,如何使ApacheSpark在将数据保存到AmazonS3时使用多部分上传。Spark使用RDD.saveAs…File方法写入数据。当目标是从s3n://Spark开始时,Spark会自动使用JetS3Tt进行上传,但对于大于5G的文件,这将失败。大文件需要使用多部分上载上传到S3,这对较小的文件也是有益的。JetS3Tt支持多部分上传,带有多部分,但Spark在默认配置中不使用此选项。是否有办法使其使用此功能。s3n似乎处于弃用状态 从他们的 AmazonEMR使用S3本机文件系统和URI方
RDD.saveAs…File
方法写入数据。当目标是从s3n://
Spark开始时,Spark会自动使用JetS3Tt进行上传,但对于大于5G的文件,这将失败。大文件需要使用多部分上载上传到S3,这对较小的文件也是有益的。JetS3Tt支持多部分上传,带有多部分
,但Spark在默认配置中不使用此选项。是否有办法使其使用此功能。s3n似乎处于弃用状态
从他们的
AmazonEMR使用S3本机文件系统和URI方案s3n。尽管这仍然有效,但我们建议您使用S3URI方案以获得最佳性能、安全性和可靠性
这是s3n的限制,您可以使用新的s3a协议访问S3中的文件。s3a基于aws adk库,支持包括多部分上传在内的许多功能。详情如下: