Hadoop 地图还原中的大数据文件处理

Hadoop 地图还原中的大数据文件处理,hadoop,mapreduce,bigdata,Hadoop,Mapreduce,Bigdata,我试图理解地图是如何减少工作的。所以我所知道的是,有一些映射程序在多台计算机上并行运行,并创建一个结果集,然后由在多台计算机上并行运行的还原程序使用该结果集来创建预期的数据集 我的问题是: 一个作业是否在固定数量的文件上运行?因此,在本报告开始时 对于作业,需要处理的文件数量是固定的 处理并产生一些数据 如果没有,那么我们如何处理 可能来自不同来源的数据流 推特提要等 如果是,请解释地图是如何缩小的 当所有映射程序都已完成时退出,并应执行缩减任务 开始,因为可能没有参考点 答案: 对。基本上,

我试图理解地图是如何减少工作的。所以我所知道的是,有一些映射程序在多台计算机上并行运行,并创建一个结果集,然后由在多台计算机上并行运行的还原程序使用该结果集来创建预期的数据集

我的问题是:

  • 一个作业是否在固定数量的文件上运行?因此,在本报告开始时 对于作业,需要处理的文件数量是固定的 处理并产生一些数据

  • 如果没有,那么我们如何处理 可能来自不同来源的数据流 推特提要等

  • 如果是,请解释地图是如何缩小的 当所有映射程序都已完成时退出,并应执行缩减任务 开始,因为可能没有参考点

答案:

  • 对。基本上,作业开始、处理文件和结束。永远不要跑

  • 流处理可通过Storm或类似方法处理 技术,但不仅仅是Hadoop,因为它是一个批处理系统。您还可以查看如何和

  • 应该作为参考点,因为tasktracker正在运行 不同节点发送正在运行的不同任务(映射任务/减少任务)的状态信息 定期发送给jobtracker,jobtracker负责协调作业运行

  • 谢谢:我将探索风暴和纱线