Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 我应该使用哪个版本的hadoop aws_Apache Spark_Hadoop_Amazon S3_Amazon Emr - Fatal编程技术网

Apache spark 我应该使用哪个版本的hadoop aws

Apache spark 我应该使用哪个版本的hadoop aws,apache-spark,hadoop,amazon-s3,amazon-emr,Apache Spark,Hadoop,Amazon S3,Amazon Emr,我在EMR5.14(hadoop 2.8.3)上运行spark作业 我可以使用hadoop aws的高级版本(例如2.9或3.1)从s3a协议的最新优化中获益吗?您需要坚持EMR提供的任何功能。他们的s3://连接器是AWS开发的,可能是您最安全的选择 FWIW,s3a,从2.8.3中开始,用于输入性能。与更高版本相比没有太大变化,除了在3.1中,如果将fs.s3a.experimental.fadvise保留为normal,它会在第一次反向搜索时自动从顺序IO优化切换为随机IO(列数据)。如果

我在EMR5.14(hadoop 2.8.3)上运行spark作业


我可以使用hadoop aws的高级版本(例如2.9或3.1)从s3a协议的最新优化中获益吗?

您需要坚持EMR提供的任何功能。他们的s3://连接器是AWS开发的,可能是您最安全的选择


FWIW,s3a,从2.8.3中开始,用于输入性能。与更高版本相比没有太大变化,除了在3.1中,如果将
fs.s3a.experimental.fadvise
保留为
normal
,它会在第一次反向搜索时自动从顺序IO优化切换为随机IO(列数据)。如果您知道所有数据都以可查找的压缩格式(即非gzip)存储为拼花地板/ORC,那么最好从一开始就将该属性设置为
random
。写操作也没有加速。在Hadoop2.9+中,您可以获得一个相当于“consistency EMR”的一致性层,在Hadoop3.1中可以获得一个高性能输出提交器。但是,您不能通过在以后的jar中加入这些功能来尝试使用这些功能。它只会给你堆栈跟踪

你需要坚持EMR给你的任何东西。他们的s3://连接器是AWS开发的,可能是您最安全的选择


FWIW,s3a,从2.8.3中开始,用于输入性能。与更高版本相比没有太大变化,除了在3.1中,如果将
fs.s3a.experimental.fadvise
保留为
normal
,它会在第一次反向搜索时自动从顺序IO优化切换为随机IO(列数据)。如果您知道所有数据都以可查找的压缩格式(即非gzip)存储为拼花地板/ORC,那么最好从一开始就将该属性设置为
random
。写操作也没有加速。在Hadoop2.9+中,您可以获得一个相当于“consistency EMR”的一致性层,在Hadoop3.1中可以获得一个高性能输出提交器。但是,您不能通过在以后的jar中加入这些功能来尝试使用这些功能。它只会给你堆栈跟踪

如果你将一个新版本捆绑为Spark应用程序的一部分,会发生什么?如果你将一个新版本捆绑为Spark应用程序的一部分,会发生什么?你不能拆分gzip,所以不能让>1个工人处理一个拼花地板文件,无论它有多大,你都不能拆分gzip,因此,不能让超过1名工人处理一个拼花地板文件,无论它有多大