Hadoop中数据的预处理和摄取

Hadoop中数据的预处理和摄取,hadoop,preprocessor,hdfs,flume,data-integration,Hadoop,Preprocessor,Hdfs,Flume,Data Integration,我们有两种类型的日志: 1) 会话日志:会话ID、用户ID、开始日期时间、结束日期时间 2) 事件日志:会话ID、日期时间、X、Y、Z 我们只需要存储事件日志,但希望用相应的用户ID替换会话ID。我们应该使用哪些技术(例如Flume?)将数据存储在HDFS中 谢谢 是Flume可用于将日志文件移动到HDFS 要将会话\u ID替换为用户\u ID,您可以: 使用Shell脚本执行此操作-并生成“修改的事件日志文件”-这是Flume将获取的内容。这将是最简单的方法

我们有两种类型的日志:

1) 会话日志:会话ID、用户ID、开始日期时间、结束日期时间

2) 事件日志:会话ID、日期时间、X、Y、Z

我们只需要存储事件日志,但希望用相应的用户ID替换会话ID。我们应该使用哪些技术(例如Flume?)将数据存储在HDFS中


谢谢

是Flume可用于将日志文件移动到HDFS

要将会话\u ID替换为用户\u ID,您可以:

使用Shell脚本执行此操作-并生成“修改的事件日志文件”-这是Flume将获取的内容。这将是最简单的方法