Json 分析存储在hdfs中的作业日志

Json 分析存储在hdfs中的作业日志,json,mapreduce,yarn,Json,Mapreduce,Yarn,是否有解析器,我可以使用它来解析存储在hdfs中的作业日志(jhist文件)中的json以从中提取信息。jhist文件中的第二行是文件中其他json的avro模式。这意味着您可以从jhist文件中创建avro数据。 你可以用这个 您有一个avro数据,例如,您可以将其导入到配置单元表中,并对其进行查询。您可以从apache生态系统中检出一个解析工具 或者,当您访问web UI时,转到作业历史记录并查找要读取其.jhist文件的作业。点击左边的Counters链接,现在您可以看到一个API,它提供

是否有解析器,我可以使用它来解析存储在hdfs中的作业日志(jhist文件)中的json以从中提取信息。

jhist文件中的第二行是文件中其他json的avro模式。这意味着您可以从jhist文件中创建avro数据。 你可以用这个

您有一个avro数据,例如,您可以将其导入到配置单元表中,并对其进行查询。

您可以从apache生态系统中检出一个解析工具
或者,当您访问web UI时,转到作业历史记录并查找要读取其.jhist文件的作业。点击左边的Counters链接,现在您可以看到一个API,它提供了所有参数和CPU时间(以毫秒为单位)等值,它将从.jhist文件本身读取。

这也可以用于解析avro二进制文件吗?我尝试解析.jhist文件,它是avro二进制格式,在尝试转换时,遇到一些二进制字符时会抛出错误。
# schema is the second line
sed -n '2p;3q' file.jhist > schema.avsc

# removing the first two lines
sed '1,2d' file.jhist > pfile.jhist

# finally converting to avro data
java -jar avro-tools-1.7.7.jar fromjson pfile.jhist --schema-file schema.avsc > file.avro