Hadoop日志文件分析来自两台不同的计算机

Hadoop日志文件分析来自两台不同的计算机,hadoop,Hadoop,我是Hadoop的新手。我必须找出符号在用户之间交易的趋势 我有两台机器b040n10和b040n11。机器中的文件如下所述: b040n10:/u/ssekar>ls -lrt -rw-r--r-- 1 root root 482342353 Feb 8 2014 A.log -rw-r--r-- 1 root root 481231231 Feb 8 2014 B.log b040n11:/u/ssekar>ls -lrt -rw-r--r

我是Hadoop的新手。我必须找出符号在用户之间交易的趋势

我有两台机器b040n10和b040n11。机器中的文件如下所述:

b040n10:/u/ssekar>ls -lrt
-rw-r--r--   1 root root      482342353 Feb  8  2014 A.log
-rw-r--r--   1 root root      481231231 Feb  8  2014 B.log

b040n11:/u/ssekar>ls -lrt 
-rw-r--r--   1 root root      412312312 Feb  8  2014 C.log
-rw-r--r--   1 root root      412356315 Feb  8  2014 D.log
所有这些日志上都有一个名为“symbol\u name”的字段(下面的示例)

我的笔记本电脑上运行着Hadoop,我有两台机器连接到我的笔记本电脑上(可以用作数据节点)。 我现在的任务是获取符号的列表和符号计数。 如下所述: ABC-2 XYZ-1

我现在应该: 1.将b040n10和b040n11中的所有文件(A.log、B.log、C.log、D.log)复制到我的笔记本电脑上, 2.向HDFS系统发出copyFromLocal命令并分析数据

或者有没有更好的方法来查找符号名称和计数,而无需将这些文件复制到我的笔记本电脑上

这个问题是一个基本的问题,但我是Hadoop新手,请帮助我更好地理解和使用Hadoop。如果需要更多关于这个问题的信息,请告诉我


谢谢

将文件从Hadoop复制到本地笔记本电脑违背了Hadoop的全部目的,即将处理过程转移到数据,而不是相反。因为当您真正拥有“BigData”时,您将无法移动数据以在本地进行处理


您的问题是Map/Reduce的典型案例,您所需要的只是计算每个符号出现次数的作业。只要搜索Map/Reduce并根据您的情况调整它

我鼓励您在尝试解决此问题之前至少阅读Hadoop权威指南的前4章,如果您不喜欢阅读,请在youtube或类似网站上查找一些关于Hadoop的视频。感谢更新。我最大的疑问是,我在服务器b040n10和服务器b040n11上的所有数据都必须在我的笔记本电脑上,才能使用Hadoop覆盖这些数据吗?请帮助我了解如何使用Hadoop(使用我拥有的datanodes)分析我服务器上的海量数据。您只需从笔记本电脑提交一个map/reduce作业,即可在Hadop集群上运行。其主要思想是在每个节点上本地处理数据,然后在reduce阶段后合并结果。再次感谢您的回复。请容忍我,直到我的基本疑虑消除为止。另一个问题是我在问题中提到的服务器,服务器b040n10和服务器b040n11中没有安装hadoop。它们只包含日志文件(每个约250 TB)。请解释我必须如何处理这种情况,并使用仅安装在笔记本电脑上的Hadoop?
IP=145.45.34.2;***symbol_name=ABC;***timestamp=12:13:05
IP=145.45.34.2;***symbol_name=XYZ;***timestamp=12:13:56
IP=145.45.34.2;***symbol_name=ABC;***timestamp=12:14:56