Hadoop 如何使用flume创建任务,按时间自动将数据从HDFS加载到HIVE?

Hadoop 如何使用flume创建任务,按时间自动将数据从HDFS加载到HIVE?,hadoop,hive,flume,Hadoop,Hive,Flume,我需要将数据从hadoop加载到hive automatic,但我不想设置其他服务来完成这项工作。我已经用flume收集日志了。。。。。。那我该怎么办呢? flume是否可以执行命令(对hive的查询就像LOAD…)?您可以让flume将提取的数据存储在hive的表目录下(通常为/user/hive/warehouse/Your_table_Dierctory)。没什么需要做的。对不起,我来晚了一点,但我已经准备了一个非常完整的例子,说明了如何做到这一点,所有的细节都暴露了出来。也许,它会帮助其

我需要将数据从hadoop加载到hive automatic,但我不想设置其他服务来完成这项工作。我已经用flume收集日志了。。。。。。那我该怎么办呢?
flume是否可以执行命令(对hive的查询就像LOAD…)?

您可以让flume将提取的数据存储在hive的表目录下(通常为/user/hive/warehouse/Your_table_Dierctory)。没什么需要做的。

对不起,我来晚了一点,但我已经准备了一个非常完整的例子,说明了如何做到这一点,所有的细节都暴露了出来。也许,它会帮助其他人


祝你好运

但是在这种情况下,我们仍然需要执行命令'load',对吗?因为数据只是保存在hdfs中,而不是在配置单元表中。这不是必需的。配置单元最终引用HDFS文件。加载不是真正的解析和加载。对于托管表,文件存储在路径/user/hive/warehouse目录下(在此路径下为每个表创建子目录)。如果它是一个外部表,那么它也可以引用上述HDFS路径之外的路径。您所需要做的就是将文件放入相应配置单元表的HDFS目录中。它和火车一样好,太棒了!这是一个很好的方法,但有时我会找不到文件,因为FlumeData.log.temp已更改为FlumeData.log。。。。。。在这个答案中如何解决这个问题?不确定这与加载问题有何关系。您正在将Flume日志文件加载到配置单元中吗?请详细说明一下bitOk,也许我需要创建另一个问题,即当Flume将/user/hive/warehouse/myTable中的数据名从“data.temp(the surfix)”更改为“data”时,如何修复找不到的文件,配置单元执行map/reduce将失败,因为在/user/hive/warehouse/mytable中找不到data.temp谢谢您发布答案!请注意,您应该将答案的重要部分发布在此网站上,否则您的帖子可能会被删除。如果您愿意,您可以继续添加该链接,但仅作为“参考”。答案应该是独立的,不需要链接。