Apache spark 我应该使用哪个版本的hadoop aws_Apache Spark_Hadoop_Amazon S3_Amazon Emr

Apache spark 我应该使用哪个版本的hadoop aws

apache-spark hadoop amazon-s3

Apache spark 我应该使用哪个版本的hadoop aws,apache-spark,hadoop,amazon-s3,amazon-emr,Apache Spark,Hadoop,Amazon S3,Amazon Emr,我在EMR5.14（hadoop 2.8.3）上运行spark作业我可以使用hadoop aws的高级版本（例如2.9或3.1）从s3a协议的最新优化中获益吗？您需要坚持EMR提供的任何功能。他们的s3://连接器是AWS开发的，可能是您最安全的选择 FWIW，s3a，从2.8.3中开始，用于输入性能。与更高版本相比没有太大变化，除了在3.1中，如果将fs.s3a.experimental.fadvise保留为normal，它会在第一次反向搜索时自动从顺序IO优化切换为随机IO（列数据）。如果

我在EMR5.14（hadoop 2.8.3）上运行spark作业

我可以使用hadoop aws的高级版本（例如2.9或3.1）从s3a协议的最新优化中获益吗？

您需要坚持EMR提供的任何功能。他们的s3://连接器是AWS开发的，可能是您最安全的选择

FWIW，s3a，从2.8.3中开始，用于输入性能。与更高版本相比没有太大变化，除了在3.1中，如果将

fs.s3a.experimental.fadvise

保留为

normal

，它会在第一次反向搜索时自动从顺序IO优化切换为随机IO（列数据）。如果您知道所有数据都以可查找的压缩格式（即非gzip）存储为拼花地板/ORC，那么最好从一开始就将该属性设置为

random

。写操作也没有加速。在Hadoop2.9+中，您可以获得一个相当于“consistency EMR”的一致性层，在Hadoop3.1中可以获得一个高性能输出提交器。但是，您不能通过在以后的jar中加入这些功能来尝试使用这些功能。它只会给你堆栈跟踪

你需要坚持EMR给你的任何东西。他们的s3://连接器是AWS开发的，可能是您最安全的选择

FWIW，s3a，从2.8.3中开始，用于输入性能。与更高版本相比没有太大变化，除了在3.1中，如果将

fs.s3a.experimental.fadvise

保留为

normal

random

如果你将一个新版本捆绑为Spark应用程序的一部分，会发生什么？如果你将一个新版本捆绑为Spark应用程序的一部分，会发生什么？你不能拆分gzip，所以不能让>1个工人处理一个拼花地板文件，无论它有多大，你都不能拆分gzip，因此，不能让超过1名工人处理一个拼花地板文件，无论它有多大