Json Fluentd Apache日志数据的配置单元创建表语句

Json Fluentd Apache日志数据的配置单元创建表语句,json,hadoop,hive,fluentd,Json,Hadoop,Hive,Fluentd,我正在使用Fluentd在HDFS中捕获和整合Apache日志数据。我将代理配置为将数据写入HDFS,即/etc/td-agent/td-agent.conf文件包含: <source> type tail path /var/log/httpd/access_log pos_file /var/log/td-agent/httpd-access.log.pos tag apache.access format apache2 </source> &

我正在使用Fluentd在HDFS中捕获和整合Apache日志数据。我将代理配置为将数据写入HDFS,即/etc/td-agent/td-agent.conf文件包含:

<source>
  type tail
  path /var/log/httpd/access_log
  pos_file /var/log/td-agent/httpd-access.log.pos
  tag apache.access
  format apache2
</source>

<match apache.access>
  type webhdfs
  host fqdn.of.name.node
  port 50070
  path /data/access_logs/access.log.%Y%m%d_%H.${hostname}.log
  flush_interval 10s
</match>
每行包含三个选项卡分隔的元素:

时间戳 识别标签 包含Apache日志中列的键/值对的JSON 我正在尝试创建一个配置单元表,但不确定如何处理这样一个事实,即每行上都混合了制表符分隔的字符串和JSON。我知道Hive有一个JSON反序列化程序,但我认为这不起作用,因为记录不是纯JSON


有人对如何为此数据编写create table语句有什么建议吗?

尝试将以下参数添加到out\u wedhdfs配置中:

output_data_type json
这应该记录在案。我会很快更新文档

output_data_type json