Hadoop 如何将级联作业的输出合并到特定大小_Hadoop_Cascading

Hadoop 如何将级联作业的输出合并到特定大小

hadoop

Hadoop 如何将级联作业的输出合并到特定大小,hadoop,cascading,Hadoop,Cascading,我有一个级联作业，输出30个25MB文件。是否有任何我可以减少到256 mb的文件每个。我尝试了-Dmapreduce.job.reduces=1。这似乎不好。任何指导都会有帮助总内存=30*25=750 所需的输出文件=750/256=3 您可以在作业中再添加一个map reduce任务。在最终输出管道上，put group by或unique或任何您可以设置减缩器数量并将减缩器数量设置为3或4的操作，以便将输出文件的数量作为减缩器的数量。之后是否可以连接，或者是否直接完成？另外，你能描述一

我有一个级联作业，输出30个25MB文件。是否有任何我可以减少到256 mb的文件每个。我尝试了-Dmapreduce.job.reduces=1。这似乎不好。任何指导都会有帮助

总内存=30*25=750

所需的输出文件=750/256=3

您可以在作业中再添加一个map reduce任务。在最终输出管道上，put group by或unique或任何您可以设置减缩器数量并将减缩器数量设置为3或4的操作，以便将输出文件的数量作为减缩器的数量。

之后是否可以连接，或者是否直接完成？另外，你能描述一下输入文件（数量和大小）和相应的映射器吗作为一个低效但可能有效的技巧：尝试在末尾放置一个排序，看看这是否有帮助。我尝试将一些管道的减速机数量设置为1。即便如此，这种情况仍在发生。在map reduce中，这是一个简单的设置，但在级联中，这似乎有点复杂，您提到过“-Dmapreduce.job.reduces”，这是这里的输入错误还是配置中的输入错误？应改为-Dmapreduce.job.reducers