Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 如何将级联作业的输出合并到特定大小_Hadoop_Cascading - Fatal编程技术网

Hadoop 如何将级联作业的输出合并到特定大小

Hadoop 如何将级联作业的输出合并到特定大小,hadoop,cascading,Hadoop,Cascading,我有一个级联作业,输出30个25MB文件。是否有任何我可以减少到256 mb的文件每个。我尝试了-Dmapreduce.job.reduces=1。这似乎不好。任何指导都会有帮助 总内存=30*25=750 所需的输出文件=750/256=3 您可以在作业中再添加一个map reduce任务。在最终输出管道上,put group by或unique或任何您可以设置减缩器数量并将减缩器数量设置为3或4的操作,以便将输出文件的数量作为减缩器的数量。之后是否可以连接,或者是否直接完成?另外,你能描述一

我有一个级联作业,输出30个25MB文件。是否有任何我可以减少到256 mb的文件每个。我尝试了-Dmapreduce.job.reduces=1。这似乎不好。任何指导都会有帮助

总内存=30*25=750

所需的输出文件=750/256=3


您可以在作业中再添加一个map reduce任务。在最终输出管道上,put group by或unique或任何您可以设置减缩器数量并将减缩器数量设置为3或4的操作,以便将输出文件的数量作为减缩器的数量。

之后是否可以连接,或者是否直接完成?另外,你能描述一下输入文件(数量和大小)和相应的映射器吗作为一个低效但可能有效的技巧:尝试在末尾放置一个排序,看看这是否有帮助。我尝试将一些管道的减速机数量设置为1。即便如此,这种情况仍在发生。在map reduce中,这是一个简单的设置,但在级联中,这似乎有点复杂,您提到过“-Dmapreduce.job.reduces”,这是这里的输入错误还是配置中的输入错误?应改为-Dmapreduce.job.reducers