Amazon web services AWS数据管道配置EMR群集运行Spark_Amazon Web Services_Amazon Emr_Amazon Data Pipeline

Amazon web services AWS数据管道配置EMR群集运行Spark

amazon-web-services

Amazon web services AWS数据管道配置EMR群集运行Spark,amazon-web-services,amazon-emr,amazon-data-pipeline,Amazon Web Services,Amazon Emr,Amazon Data Pipeline,有人能帮忙吗？我正试图做到这一点；我无法从AWS控制台的数据管道配置中创建带有Spark安装的EMR环境。我选择“在EMR集群上运行作业”，EMR集群总是以Pig和Hive作为默认值创建，而不是Spark 我明白，我可以选择Spark作为引导操作，如这里所述，但当我选择Spark时，我会收到以下信息：名称：xxx.xxxxxxx.processing.dp 使用模板构建：在弹性MapReduce集群上运行作业参数： EC2密钥对（可选）：xxx\uxxxxxxx\u emr\u密钥电子病历

有人能帮忙吗？我正试图做到这一点；我无法从AWS控制台的数据管道配置中创建带有Spark安装的EMR环境。我选择“在EMR集群上运行作业”，EMR集群总是以Pig和Hive作为默认值创建，而不是Spark

我明白，我可以选择Spark作为引导操作，如这里所述，但当我选择Spark时，我会收到以下信息：名称：xxx.xxxxxxx.processing.dp
使用模板构建：在弹性MapReduce集群上运行作业

参数： EC2密钥对（可选）：xxx\uxxxxxxx\u emr\u密钥电子病历步骤：
spark submit--部署模式群集s3://xxx.xxxxxxx.scripts.bucket/CSV2Parquet.py s3://xxx.xxxxxxx.scripts.bucket/

EMR发布标签：EMR-4.3.0 引导操作（可选）：s3://support.elasticmapreduce/spark/install spark，-v，1.4.0.b

AMI比特去哪里了？上面的说法正确吗

以下是激活数据管道时出现的错误：无法为@EmrClusterObj_2017-01-13T09:00:07创建资源，原因是：提供的引导操作：“引导操作。6255c495-578a-441a-9d05-d03981fc460d”不受版本“emr-4.3.0”的支持。（服务：AmazonElasticMapReduce；状态代码：400；错误代码：ValidationException；请求ID:b1b81565-d96e-11e6-bbd2-33fb57aa2526）

如果我指定了更高版本的EMR，我是否将Spark作为默认安装

非常感谢您的帮助。

注意。

安装spark引导操作仅适用于3.x AMI版本。如果您使用的是releaseLabel（emr-4.x或更高版本），则将以不同的方式指定要安装的应用程序

我本人从未使用过数据管道，但我看到，如果在创建管道时，单击底部的“在Architect中编辑”，然后可以单击EmrCluster节点并从“添加可选字段…”下拉列表中选择应用程序。这就是你可以添加火花的地方。

非常感谢，它解决了最初的问题；我的群集现在以Spark开始。但现在我的Spark步骤无法正确执行。。当它运行时，我收到一个“下载失败”错误，并且“只支持s3+本地文件”。。。有什么想法吗？？