Hadoop 地图还原中的大数据文件处理
我试图理解地图是如何减少工作的。所以我所知道的是,有一些映射程序在多台计算机上并行运行,并创建一个结果集,然后由在多台计算机上并行运行的还原程序使用该结果集来创建预期的数据集 我的问题是:Hadoop 地图还原中的大数据文件处理,hadoop,mapreduce,bigdata,Hadoop,Mapreduce,Bigdata,我试图理解地图是如何减少工作的。所以我所知道的是,有一些映射程序在多台计算机上并行运行,并创建一个结果集,然后由在多台计算机上并行运行的还原程序使用该结果集来创建预期的数据集 我的问题是: 一个作业是否在固定数量的文件上运行?因此,在本报告开始时 对于作业,需要处理的文件数量是固定的 处理并产生一些数据 如果没有,那么我们如何处理 可能来自不同来源的数据流 推特提要等 如果是,请解释地图是如何缩小的 当所有映射程序都已完成时退出,并应执行缩减任务 开始,因为可能没有参考点 答案: 对。基本上,
- 一个作业是否在固定数量的文件上运行?因此,在本报告开始时 对于作业,需要处理的文件数量是固定的 处理并产生一些数据
- 如果没有,那么我们如何处理 可能来自不同来源的数据流 推特提要等
- 如果是,请解释地图是如何缩小的 当所有映射程序都已完成时退出,并应执行缩减任务 开始,因为可能没有参考点