Hadoop 瘤胃样本输出或Gridmix样本输入_Hadoop_Mapreduce

Hadoop 瘤胃样本输出或Gridmix样本输入

hadoop mapreduce

Hadoop 瘤胃样本输出或Gridmix样本输入,hadoop,mapreduce,Hadoop,Mapreduce,我对Hadoop这样的大数据工具的使用还很陌生。我想在纱线/或纱线模拟器上执行一个公开可用的集群跟踪（）一种方法是通过Gridmix将输入输入输入到纱线中 Gridmix（）接受输入的格式基本上是Rumen的输出。 Rumen（）将map reduce集群生成的JobHistory日志作为输入 google跟踪不是map reduce跟踪。但是，我想知道是否可以将其转换为与Grdimix作为输入的格式相同的格式，然后可以使用Grdmix 这里有人能告诉我Gridmix的输入格式（或瘤胃的输出）

我对Hadoop这样的大数据工具的使用还很陌生。我想在纱线/或纱线模拟器上执行一个公开可用的集群跟踪（）

一种方法是通过Gridmix将输入输入输入到纱线中

Gridmix（）接受输入的格式基本上是Rumen的输出。 Rumen（）将map reduce集群生成的JobHistory日志作为输入

google跟踪不是map reduce跟踪。但是，我想知道是否可以将其转换为与Grdimix作为输入的格式相同的格式，然后可以使用Grdmix

这里有人能告诉我Gridmix的输入格式（或瘤胃的输出）吗

或者建议我用另一种方式去做我想做的事

谢谢

瘤胃的输出包含两个文件： 1.作业跟踪文件， 2.集群拓扑文件

这两个文件均为json格式，作业跟踪文件格式如下：

{
  "jobID" : "job_1546949851050_53464",
  "user" : "mammut",
  "computonsPerMapInputByte" : -1,
  "computonsPerMapOutputByte" : -1,
  "computonsPerReduceInputByte" : -1,
  "computonsPerReduceOutputByte" : -1,
  "submitTime" : 1551801585141,
  "launchTime" : 1551801594958,
  "finishTime" : 1551801630228,
  "heapMegabytes" : 200,
  "totalMaps" : 2,
  "totalReduces" : 1,
  "outcome" : "SUCCESS",
  "jobtype" : "JAVA",
  "priority" : "NORMAL",
  "directDependantJobs" : [ ],
  "mapTasks" : [ {
    "inputBytes" : 25599927,
    ...}]
  ...
}

集群拓扑结构如下所示：

{
  "name" : "<root>",
  "children" : [ {
    "name" : "rack-01",
    "children" : [ {
      "name" : "",
      "children" : null
    }, {
      "name" : "",
      "children" : null
    }, {
      "name" : "",
      "children" : null
    } ]
  }, {
    "name" : "default-rack",
    "children" : [ {
      "name" : "x",
      "children" : null
    } ]
  } ]
}

{
“名称”：“，
“儿童”：[{
“名称”：“rack-01”，
“儿童”：[{
“名称”：“，
“children”：空
}, {
“名称”：“，
“children”：空
}, {
“名称”：“，
“children”：空
} ]
}, {
“名称”：“默认机架”，
“儿童”：[{
“名称”：“x”，
“children”：空
} ]
} ]
}