Hadoop 在hcatalog regex或serde中解析日志文件

Hadoop 在hcatalog regex或serde中解析日志文件,hadoop,hcatalog,Hadoop,Hcatalog,我是Hadoop的新手 我正在尝试将日志文件加载到HCatalog中。以下是我的日志文件的格式 Time: 2014-10-28 06:32:34Z UserID: arun GroupID: admin Page: welcome.aspx Message: Login successful Time: 2014-10-28 06:32:34Z UserID: arun GroupID: admin Page: main.aspx Message: menu load .. .. 我需要写

我是Hadoop的新手

我正在尝试将日志文件加载到HCatalog中。以下是我的日志文件的格式

Time: 2014-10-28 06:32:34Z
UserID: arun
GroupID: admin
Page: welcome.aspx
Message: Login successful

Time: 2014-10-28 06:32:34Z
UserID: arun
GroupID: admin
Page: main.aspx
Message: menu load
..
..

我需要写一个SerDe来解析这个,还是可以通过regex实现?

我相信您希望将外部日志文件加载到配置单元表中,其中配置单元元存储由HCatalog服务管理

如果是这样,请首先分析源日志记录中的固定分隔符,这将有助于配置单元将记录解析为所需的n个列,主要是tab\t字符

下一个选项可能是使用带有相关正则表达式的配置单元RegexSerDe类从源日志记录实现列解析

如果正则表达式解析不可行,那么另一个选项是创建自定义配置单元serde类来解析源日志文件记录。在自定义serde类的帮助下,配置单元将能够将分隔的单元格完美地放入配置单元外部表的相关列中

请参阅