数据摄取任务:Hadoop在本地而不是远程Hadoop EMR集群中运行

数据摄取任务:Hadoop在本地而不是远程Hadoop EMR集群中运行,emr,amazon-emr,druid,Emr,Amazon Emr,Druid,我已经设置了一个多节点的德鲁伊集群,其中包括: 1) 1个节点作为协调器和霸主运行(m4.xl) 2) 2个节点,分别运行历史管理器和中间管理器。(r3.2xl) 3) 1个运行代理的节点(r3.2xl) 现在我运行了一个EMR集群,我想将其用于接收任务,问题是每当我尝试通过CURL命令提交作业时,作业总是在两个中间管理器中作为本地hadoop作业启动,而不是提交到远程EMR集群。我的数据位于S3中,S3也配置为深度存储。 我还将所有JAR从EMR master复制到了hadoop depend

我已经设置了一个多节点的德鲁伊集群,其中包括: 1) 1个节点作为协调器和霸主运行(m4.xl) 2) 2个节点,分别运行历史管理器和中间管理器。(r3.2xl) 3) 1个运行代理的节点(r3.2xl)

现在我运行了一个EMR集群,我想将其用于接收任务,问题是每当我尝试通过CURL命令提交作业时,作业总是在两个中间管理器中作为本地hadoop作业启动,而不是提交到远程EMR集群。我的数据位于S3中,S3也配置为深度存储。 我还将所有JAR从EMR master复制到了
hadoop dependencies/hadoop client/2.7.3/

德鲁伊版本:0.9.2 电子病历版本:5.2

请查找附加的索引作业、通用运行时属性和中间管理器运行时属性

  • Q1)如何将作业提交到远程EMR群集
  • 问题2)有关 索引任务不是来霸王:8090,如何启用它
文件:data_index.json

{
“类型”:“索引\ hadoop”,
“规格”:{
“ioConfig”:{
“类型”:“hadoop”,
“inputSpec”:{
“类型”:“静态”,
“路径”:“s3n://smallTest”
}
},
“数据模式”:{
“数据源”:“多值测试”,
“粒度规格”:{
“类型”:“统一”,
“日”:“日”,
“质问性”:“无”,
“间隔”:[
"2011-09-12/2017-09-13"
]
},
“解析器”:{
“类型”:“字符串”,
“parseSpec”:{
“格式”:“tsv”,
“分隔符”:“\u0001”,
“listDelimiter”:“|”,
“栏目”:[
“物品类型”,
“品牌”,
“性别”,
“品牌类型”,
“大师级”,
“供应类型”,
“商业单位”,
“testdim”,
“日期”,
“一周”,
“月”,
“年”,
“样式标识”,
“现场风格”,
“非现场风格”,
“破格风格”,
“新季季季风格”,
“实时样式数量”,
“非实时样式数量”,
“损坏的样式数量”,
“新季\款式\数量”
],
“尺寸规格”:{
“尺寸”:[
“物品类型”,
“品牌”,
“性别”,
“品牌类型”,
“大师级”,
“供应类型”,
“商业单位”,
“testdim”,
“一周”,
“月”,
“年”,
“样式标识”
]
},
“时间戳规范”:{
“列”:“日期”,
“格式”:“yyyyMMdd”
}
}
},
“metricsSpec”:[
{
“名称”:“现场风格”,
“类型”:“双和”,
“字段名”:“实时样式”
},
{
“名称”:“非现场风格”,
“类型”:“双和”,
“字段名”:“非实时样式”
},
{
“名称”:“破碎的风格”,
“类型”:“双和”,
“字段名”:“断开的样式”
},
{
“名称”:“新的季节风格”,
“类型”:“双和”,
“字段名”:“新的季节样式”
},
{
“名称”:“现场样式数量”,
“类型”:“双和”,
“字段名”:“活动样式数量”
},
{
“名称”:“破损样式数量”,
“类型”:“双和”,
“字段名”:“断开的样式数量”
},
{
“名称”:“新季度样式数量”,
“类型”:“双和”,
“字段名”:“新季度样式数量”
}
]
},
“tuningConfig”:{
“类型”:“hadoop”,
“分区规范”:{
“类型”:“哈希”,
“targetPartitionSize”:5000000
},
“作业属性”:{
“fs.s3.awsAccessKeyId”:“XXXXXXXXXXXXX”,
“fs.s3.awsSecretAccessKey”:“XXXXXXXXXXXXX”,
“fs.s3.impl”:“org.apache.hadoop.fs.s3native.NativeS3FileSystem”,
“fs.s3n.awsAccessKeyId”:“XXXXXXXXXXXXX”,
“fs.s3n.awsSecretAccessKey”:“XXXXXXXXXXXXX”,
“fs.s3n.impl”:“org.apache.hadoop.fs.s3native.NativeS3FileSystem”,
“io.compression.codecs”:“org.apache.hadoop.io.compress.gzicodec,org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.BZip2Codec,org.apache.hadoop.io.compress.SnappyCodec”
}
}
}

}
您需要将Hadoop集群的情况告诉Druid。引述:

将Hadoop配置xml(core-site.xml、hdfs-site.xml、warn-site.xml、mapred site.xml)放在Druid节点的类路径上。您可以通过将它们复制到conf/druid/_common/core-site.xml、conf/druid/_common/hdfs-site.xml等中来实现这一点

如果您已经这样做了,那么它将表明其中一个配置文件有问题(发生在我身上)