Hadoop 启动的reduce任务和调用reduces函数的次数之间的差异?

Hadoop 启动的reduce任务和调用reduces函数的次数之间的差异?,hadoop,mapreduce,reduce,hadoop-partitioning,Hadoop,Mapreduce,Reduce,Hadoop Partitioning,我刚刚开始学习hadoop,并使用自定义分区器和比较器运行hadoop map reduce程序(首先在单节点环境中尝试,稍后将部署到集群上),我观察到的奇怪行为(因为我不知道实际发生了什么)是,根据我的分区器和比较器,调用了五次reduce方法,因为我也从日志中检查了它。但是在控制台上,启动的reduce任务的计数仍然是“1”。我非常怀疑这五个函数调用是否并行运行?如果没有,那么我将如何实现这些reduce函数调用的分布式计算优势,因为这些reduce函数调用收集的数据将非常大。 请澄清,我缺

我刚刚开始学习hadoop,并使用自定义分区器和比较器运行hadoop map reduce程序(首先在单节点环境中尝试,稍后将部署到集群上),我观察到的奇怪行为(因为我不知道实际发生了什么)是,根据我的分区器和比较器,调用了五次reduce方法,因为我也从日志中检查了它。但是在控制台上,启动的reduce任务的计数仍然是“1”。我非常怀疑这五个函数调用是否并行运行?如果没有,那么我将如何实现这些reduce函数调用的分布式计算优势,因为这些reduce函数调用收集的数据将非常大。
请澄清,我缺少什么概念?

reduce函数是连接两个数据段时调用的实际函数。reduce任务是一个在机器上运行的程序,它连续多次执行reduce函数


如果您希望实际并行处理数据,则必须(手动)启动多个reduce任务,然后hadoop将在它们之间分配工作

reduce函数是连接两段数据时调用的实际函数。reduce任务是一个在机器上运行的程序,它连续多次执行reduce函数

如果您希望实际并行处理数据,则必须(手动)启动多个reduce任务,然后hadoop将在它们之间分配工作