Hadoop 地图还原中的大数据文件处理_Hadoop_Mapreduce_Bigdata

Hadoop 地图还原中的大数据文件处理

hadoop mapreduce

Hadoop 地图还原中的大数据文件处理,hadoop,mapreduce,bigdata,Hadoop,Mapreduce,Bigdata,我试图理解地图是如何减少工作的。所以我所知道的是，有一些映射程序在多台计算机上并行运行，并创建一个结果集，然后由在多台计算机上并行运行的还原程序使用该结果集来创建预期的数据集我的问题是：一个作业是否在固定数量的文件上运行？因此，在本报告开始时对于作业，需要处理的文件数量是固定的处理并产生一些数据如果没有，那么我们如何处理可能来自不同来源的数据流推特提要等如果是，请解释地图是如何缩小的当所有映射程序都已完成时退出，并应执行缩减任务开始，因为可能没有参考点答案：对。基本上，

我试图理解地图是如何减少工作的。所以我所知道的是，有一些映射程序在多台计算机上并行运行，并创建一个结果集，然后由在多台计算机上并行运行的还原程序使用该结果集来创建预期的数据集

我的问题是：

一个作业是否在固定数量的文件上运行？因此，在本报告开始时对于作业，需要处理的文件数量是固定的处理并产生一些数据
如果没有，那么我们如何处理可能来自不同来源的数据流推特提要等
如果是，请解释地图是如何缩小的当所有映射程序都已完成时退出，并应执行缩减任务开始，因为可能没有参考点

答案：

对。基本上，作业开始、处理文件和结束。永远不要跑

流处理可通过Storm或类似方法处理技术，但不仅仅是Hadoop，因为它是一个批处理系统。您还可以查看如何和

应该作为参考点，因为tasktracker正在运行不同节点发送正在运行的不同任务（映射任务/减少任务）的状态信息定期发送给jobtracker，jobtracker负责协调作业运行

谢谢：我将探索风暴和纱线