数据摄取任务：Hadoop在本地而不是远程Hadoop EMR集群中运行_Emr_Amazon Emr_Druid

数据摄取任务：Hadoop在本地而不是远程Hadoop EMR集群中运行

数据摄取任务：Hadoop在本地而不是远程Hadoop EMR集群中运行,emr,amazon-emr,druid,Emr,Amazon Emr,Druid,我已经设置了一个多节点的德鲁伊集群，其中包括： 1） 1个节点作为协调器和霸主运行（m4.xl） 2） 2个节点，分别运行历史管理器和中间管理器。（r3.2xl） 3） 1个运行代理的节点（r3.2xl）现在我运行了一个EMR集群，我想将其用于接收任务，问题是每当我尝试通过CURL命令提交作业时，作业总是在两个中间管理器中作为本地hadoop作业启动，而不是提交到远程EMR集群。我的数据位于S3中，S3也配置为深度存储。我还将所有JAR从EMR master复制到了hadoop depend

我已经设置了一个多节点的德鲁伊集群，其中包括： 1） 1个节点作为协调器和霸主运行（m4.xl） 2） 2个节点，分别运行历史管理器和中间管理器。（r3.2xl） 3） 1个运行代理的节点（r3.2xl）

现在我运行了一个EMR集群，我想将其用于接收任务，问题是每当我尝试通过CURL命令提交作业时，作业总是在两个中间管理器中作为本地hadoop作业启动，而不是提交到远程EMR集群。我的数据位于S3中，S3也配置为深度存储。我还将所有JAR从EMR master复制到了

hadoop dependencies/hadoop client/2.7.3/

德鲁伊版本：0.9.2 电子病历版本：5.2

请查找附加的索引作业、通用运行时属性和中间管理器运行时属性

Q1）如何将作业提交到远程EMR群集
问题2）有关索引任务不是来霸王：8090，如何启用它

文件：data_index.json

{
“类型”：“索引\ hadoop”，
“规格”：{
“ioConfig”：{
“类型”：“hadoop”，
“inputSpec”：{
“类型”：“静态”，
“路径”：“s3n://smallTest”
}
},
“数据模式”：{
“数据源”：“多值测试”，
“粒度规格”：{
“类型”：“统一”，
“日”：“日”，
“质问性”：“无”，
“间隔”：[
"2011-09-12/2017-09-13"
]
},
“解析器”：{
“类型”：“字符串”，
“parseSpec”：{
“格式”：“tsv”，
“分隔符”：“\u0001”，
“listDelimiter”：“|”，
“栏目”：[
“物品类型”，
“品牌”，
“性别”，
“品牌类型”，
“大师级”，
“供应类型”，
“商业单位”，
“testdim”，
“日期”，
“一周”，
“月”，
“年”，
“样式标识”，
“现场风格”，
“非现场风格”，
“破格风格”，
“新季季季风格”，
“实时样式数量”，
“非实时样式数量”，
“损坏的样式数量”，
“新季\款式\数量”
],
“尺寸规格”：{
“尺寸”：[
“物品类型”，
“品牌”，
“性别”，
“品牌类型”，
“大师级”，
“供应类型”，
“商业单位”，
“testdim”，
“一周”，
“月”，
“年”，
“样式标识”
]
},
“时间戳规范”：{
“列”：“日期”，
“格式”：“yyyyMMdd”
}
}
},
“metricsSpec”：[
{
“名称”：“现场风格”，
“类型”：“双和”，
“字段名”：“实时样式”
},
{
“名称”：“非现场风格”，
“类型”：“双和”，
“字段名”：“非实时样式”
},
{
“名称”：“破碎的风格”，
“类型”：“双和”，
“字段名”：“断开的样式”
},
{
“名称”：“新的季节风格”，
“类型”：“双和”，
“字段名”：“新的季节样式”
},
{
“名称”：“现场样式数量”，
“类型”：“双和”，
“字段名”：“活动样式数量”
},
{
“名称”：“破损样式数量”，
“类型”：“双和”，
“字段名”：“断开的样式数量”
},
{
“名称”：“新季度样式数量”，
“类型”：“双和”，
“字段名”：“新季度样式数量”
}
]
},
“tuningConfig”：{
“类型”：“hadoop”，
“分区规范”：{
“类型”：“哈希”，
“targetPartitionSize”：5000000
},
“作业属性”：{
“fs.s3.awsAccessKeyId”：“XXXXXXXXXXXXX”，
“fs.s3.awsSecretAccessKey”：“XXXXXXXXXXXXX”，
“fs.s3.impl”：“org.apache.hadoop.fs.s3native.NativeS3FileSystem”，
“fs.s3n.awsAccessKeyId”：“XXXXXXXXXXXXX”，
“fs.s3n.awsSecretAccessKey”：“XXXXXXXXXXXXX”，
“fs.s3n.impl”：“org.apache.hadoop.fs.s3native.NativeS3FileSystem”，
“io.compression.codecs”：“org.apache.hadoop.io.compress.gzicodec，org.apache.hadoop.io.compress.DefaultCodec，org.apache.hadoop.io.compress.BZip2Codec，org.apache.hadoop.io.compress.SnappyCodec”
}
}
}
}

您需要将Hadoop集群的情况告诉Druid。引述:

将Hadoop配置xml（core-site.xml、hdfs-site.xml、warn-site.xml、mapred site.xml）放在Druid节点的类路径上。您可以通过将它们复制到conf/druid/_common/core-site.xml、conf/druid/_common/hdfs-site.xml等中来实现这一点

如果您已经这样做了，那么它将表明其中一个配置文件有问题（发生在我身上）