Hadoop 瘤胃样本输出或Gridmix样本输入
我对Hadoop这样的大数据工具的使用还很陌生。我想在纱线/或纱线模拟器上执行一个公开可用的集群跟踪() 一种方法是通过Gridmix将输入输入输入到纱线中 Gridmix()接受输入的格式基本上是Rumen的输出。 Rumen()将map reduce集群生成的JobHistory日志作为输入 google跟踪不是map reduce跟踪。但是,我想知道是否可以将其转换为与Grdimix作为输入的格式相同的格式,然后可以使用Grdmix 这里有人能告诉我Gridmix的输入格式(或瘤胃的输出)吗 或者建议我用另一种方式去做我想做的事Hadoop 瘤胃样本输出或Gridmix样本输入,hadoop,mapreduce,Hadoop,Mapreduce,我对Hadoop这样的大数据工具的使用还很陌生。我想在纱线/或纱线模拟器上执行一个公开可用的集群跟踪() 一种方法是通过Gridmix将输入输入输入到纱线中 Gridmix()接受输入的格式基本上是Rumen的输出。 Rumen()将map reduce集群生成的JobHistory日志作为输入 google跟踪不是map reduce跟踪。但是,我想知道是否可以将其转换为与Grdimix作为输入的格式相同的格式,然后可以使用Grdmix 这里有人能告诉我Gridmix的输入格式(或瘤胃的输出)
谢谢 瘤胃的输出包含两个文件: 1.作业跟踪文件, 2.集群拓扑文件 这两个文件均为json格式,作业跟踪文件格式如下:
{
"jobID" : "job_1546949851050_53464",
"user" : "mammut",
"computonsPerMapInputByte" : -1,
"computonsPerMapOutputByte" : -1,
"computonsPerReduceInputByte" : -1,
"computonsPerReduceOutputByte" : -1,
"submitTime" : 1551801585141,
"launchTime" : 1551801594958,
"finishTime" : 1551801630228,
"heapMegabytes" : 200,
"totalMaps" : 2,
"totalReduces" : 1,
"outcome" : "SUCCESS",
"jobtype" : "JAVA",
"priority" : "NORMAL",
"directDependantJobs" : [ ],
"mapTasks" : [ {
"inputBytes" : 25599927,
...}]
...
}
集群拓扑结构如下所示:
{
"name" : "<root>",
"children" : [ {
"name" : "rack-01",
"children" : [ {
"name" : "",
"children" : null
}, {
"name" : "",
"children" : null
}, {
"name" : "",
"children" : null
} ]
}, {
"name" : "default-rack",
"children" : [ {
"name" : "x",
"children" : null
} ]
} ]
}
{
“名称”:“,
“儿童”:[{
“名称”:“rack-01”,
“儿童”:[{
“名称”:“,
“children”:空
}, {
“名称”:“,
“children”:空
}, {
“名称”:“,
“children”:空
} ]
}, {
“名称”:“默认机架”,
“儿童”:[{
“名称”:“x”,
“children”:空
} ]
} ]
}