Amazon web services AWS数据管道配置EMR群集运行Spark

Amazon web services AWS数据管道配置EMR群集运行Spark,amazon-web-services,amazon-emr,amazon-data-pipeline,Amazon Web Services,Amazon Emr,Amazon Data Pipeline,有人能帮忙吗?我正试图做到这一点;我无法从AWS控制台的数据管道配置中创建带有Spark安装的EMR环境。我选择“在EMR集群上运行作业”,EMR集群总是以Pig和Hive作为默认值创建,而不是Spark 我明白,我可以选择Spark作为引导操作,如这里所述,但当我选择Spark时,我会收到以下信息: 名称:xxx.xxxxxxx.processing.dp 使用模板构建:在弹性MapReduce集群上运行作业 参数: EC2密钥对(可选):xxx\uxxxxxxx\u emr\u密钥 电子病历

有人能帮忙吗?我正试图做到这一点;我无法从AWS控制台的数据管道配置中创建带有Spark安装的EMR环境。我选择“在EMR集群上运行作业”,EMR集群总是以Pig和Hive作为默认值创建,而不是Spark

我明白,我可以选择Spark作为引导操作,如这里所述,但当我选择Spark时,我会收到以下信息: 名称:xxx.xxxxxxx.processing.dp
使用模板构建:在弹性MapReduce集群上运行作业

参数: EC2密钥对(可选):xxx\uxxxxxxx\u emr\u密钥 电子病历步骤:
spark submit--部署模式群集s3://xxx.xxxxxxx.scripts.bucket/CSV2Parquet.py s3://xxx.xxxxxxx.scripts.bucket/

EMR发布标签:EMR-4.3.0 引导操作(可选):s3://support.elasticmapreduce/spark/install spark,-v,1.4.0.b

AMI比特去哪里了?上面的说法正确吗

以下是激活数据管道时出现的错误: 无法为@EmrClusterObj_2017-01-13T09:00:07创建资源,原因是:提供的引导操作:“引导操作。6255c495-578a-441a-9d05-d03981fc460d”不受版本“emr-4.3.0”的支持。(服务:AmazonElasticMapReduce;状态代码:400;错误代码:ValidationException;请求ID:b1b81565-d96e-11e6-bbd2-33fb57aa2526)

如果我指定了更高版本的EMR,我是否将Spark作为默认安装

非常感谢您的帮助。
注意。

安装spark引导操作仅适用于3.x AMI版本。如果您使用的是releaseLabel(emr-4.x或更高版本),则将以不同的方式指定要安装的应用程序


我本人从未使用过数据管道,但我看到,如果在创建管道时,单击底部的“在Architect中编辑”,然后可以单击EmrCluster节点并从“添加可选字段…”下拉列表中选择应用程序。这就是你可以添加火花的地方。

非常感谢,它解决了最初的问题;我的群集现在以Spark开始。但现在我的Spark步骤无法正确执行。。当它运行时,我收到一个“下载失败”错误,并且“只支持s3+本地文件”。。。有什么想法吗??