Hadoop日志文件分析来自两台不同的计算机_Hadoop

Hadoop日志文件分析来自两台不同的计算机

hadoop

Hadoop日志文件分析来自两台不同的计算机,hadoop,Hadoop,我是Hadoop的新手。我必须找出符号在用户之间交易的趋势我有两台机器b040n10和b040n11。机器中的文件如下所述： b040n10:/u/ssekar>ls -lrt -rw-r--r-- 1 root root 482342353 Feb 8 2014 A.log -rw-r--r-- 1 root root 481231231 Feb 8 2014 B.log b040n11:/u/ssekar>ls -lrt -rw-r--r

我是Hadoop的新手。我必须找出符号在用户之间交易的趋势

我有两台机器b040n10和b040n11。机器中的文件如下所述：

b040n10:/u/ssekar>ls -lrt
-rw-r--r--   1 root root      482342353 Feb  8  2014 A.log
-rw-r--r--   1 root root      481231231 Feb  8  2014 B.log

b040n11:/u/ssekar>ls -lrt 
-rw-r--r--   1 root root      412312312 Feb  8  2014 C.log
-rw-r--r--   1 root root      412356315 Feb  8  2014 D.log

所有这些日志上都有一个名为“symbol\u name”的字段（下面的示例）

我的笔记本电脑上运行着Hadoop，我有两台机器连接到我的笔记本电脑上（可以用作数据节点）。我现在的任务是获取符号的列表和符号计数。如下所述： ABC-2 XYZ-1
我现在应该： 1.将b040n10和b040n11中的所有文件（A.log、B.log、C.log、D.log）复制到我的笔记本电脑上， 2.向HDFS系统发出copyFromLocal命令并分析数据
或者有没有更好的方法来查找符号名称和计数，而无需将这些文件复制到我的笔记本电脑上
这个问题是一个基本的问题，但我是Hadoop新手，请帮助我更好地理解和使用Hadoop。如果需要更多关于这个问题的信息，请告诉我

谢谢
将文件从Hadoop复制到本地笔记本电脑违背了Hadoop的全部目的，即将处理过程转移到数据，而不是相反。因为当您真正拥有“BigData”时，您将无法移动数据以在本地进行处理

您的问题是Map/Reduce的典型案例，您所需要的只是计算每个符号出现次数的作业。只要搜索Map/Reduce并根据您的情况调整它
我鼓励您在尝试解决此问题之前至少阅读Hadoop权威指南的前4章，如果您不喜欢阅读，请在youtube或类似网站上查找一些关于Hadoop的视频。感谢更新。我最大的疑问是，我在服务器b040n10和服务器b040n11上的所有数据都必须在我的笔记本电脑上，才能使用Hadoop覆盖这些数据吗？请帮助我了解如何使用Hadoop（使用我拥有的datanodes）分析我服务器上的海量数据。您只需从笔记本电脑提交一个map/reduce作业，即可在Hadop集群上运行。其主要思想是在每个节点上本地处理数据，然后在reduce阶段后合并结果。再次感谢您的回复。请容忍我，直到我的基本疑虑消除为止。另一个问题是我在问题中提到的服务器，服务器b040n10和服务器b040n11中没有安装hadoop。它们只包含日志文件（每个约250 TB）。请解释我必须如何处理这种情况，并使用仅安装在笔记本电脑上的Hadoop？
IP=145.45.34.2;***symbol_name=ABC;***timestamp=12:13:05 IP=145.45.34.2;***symbol_name=XYZ;***timestamp=12:13:56 IP=145.45.34.2;***symbol_name=ABC;***timestamp=12:14:56