从hadoop中获取数据_Hadoop - Fatal编程技术网

从hadoop中获取数据

hadoop

从hadoop中获取数据,hadoop,Hadoop,我需要一个系统来分析大型日志文件。前几天一位朋友指导我使用hadoop，它似乎非常适合我的需要。我的问题是如何将数据导入hadoop- 当我的集群中的节点将数据流传输到HDFS中时，是否可以让这些节点将数据流传输到HDFS中？或者每个节点是否需要写入本地临时文件，并在临时文件达到一定大小后提交？是否可以在HDFS中附加到一个文件中，同时在同一文件上运行查询/作业？HDFS不支持附加（但？）我要做的是定期运行map reduce作业，并将结果输出到“processed_logs_35;{time

我需要一个系统来分析大型日志文件。前几天一位朋友指导我使用hadoop，它似乎非常适合我的需要。我的问题是如何将数据导入hadoop-

当我的集群中的节点将数据流传输到HDFS中时，是否可以让这些节点将数据流传输到HDFS中？或者每个节点是否需要写入本地临时文件，并在临时文件达到一定大小后提交？是否可以在HDFS中附加到一个文件中，同时在同一文件上运行查询/作业？

HDFS不支持附加（但？）

我要做的是定期运行map reduce作业，并将结果输出到“processed_logs_35;{timestamp}”文件夹。

另一个作业稍后可以获取这些已处理的日志并将其推送到数据库等。因此可以在线查询它。

一个hadoop作业可以运行多个输入文件，因此确实不需要将所有数据保存为一个文件。但是，在文件句柄正确关闭之前，您将无法处理文件。

我建议使用来收集日志文件从您的服务器传输到HDFS。

日志收集器刚刚发布，它允许用户立即将数据流传输到HDFS。它非常易于安装，易于管理

当然，您可以直接从应用程序导入数据