从hadoop中获取数据

从hadoop中获取数据,hadoop,Hadoop,我需要一个系统来分析大型日志文件。前几天一位朋友指导我使用hadoop,它似乎非常适合我的需要。我的问题是如何将数据导入hadoop- 当我的集群中的节点将数据流传输到HDFS中时,是否可以让这些节点将数据流传输到HDFS中?或者每个节点是否需要写入本地临时文件,并在临时文件达到一定大小后提交?是否可以在HDFS中附加到一个文件中,同时在同一文件上运行查询/作业?HDFS不支持附加(但?) 我要做的是定期运行map reduce作业,并将结果输出到“processed_logs_35;{time

我需要一个系统来分析大型日志文件。前几天一位朋友指导我使用hadoop,它似乎非常适合我的需要。我的问题是如何将数据导入hadoop-


当我的集群中的节点将数据流传输到HDFS中时,是否可以让这些节点将数据流传输到HDFS中?或者每个节点是否需要写入本地临时文件,并在临时文件达到一定大小后提交?是否可以在HDFS中附加到一个文件中,同时在同一文件上运行查询/作业?

HDFS不支持附加(但?)

我要做的是定期运行map reduce作业,并将结果输出到“processed_logs_35;{timestamp}”文件夹。
另一个作业稍后可以获取这些已处理的日志并将其推送到数据库等。因此可以在线查询它。

一个hadoop作业可以运行多个输入文件,因此确实不需要将所有数据保存为一个文件。但是,在文件句柄正确关闭之前,您将无法处理文件。

我建议使用来收集日志文件从您的服务器传输到HDFS。

日志收集器刚刚发布,它允许用户立即将数据流传输到HDFS。它非常易于安装,易于管理

当然,您可以直接从应用程序导入数据