如何处理hadoop中的掉队还原程序_Hadoop

如何处理hadoop中的掉队还原程序

hadoop

如何处理hadoop中的掉队还原程序,hadoop,Hadoop,我有一个非常简单的用例。。。基本上，我有一个边列表，我正试图把它转换成邻接列表。。基本上 src target a b a c b d b e 等等。。我想建立的是 a [b,c] b [d,e] .. and so on.. 但有时。。我击中了一个超级节点..它有数百万条边因此，仅键入节点id会导致较差的MR执行，因为这种掉队减速器我一直在试着去理解“分裂者”。。但我不知道在这里怎么用我如何解决这个掉队的问题？谢谢我不明白你的目的是什么。您知道如何生

我有一个非常简单的用例。。。基本上，我有一个边列表，我正试图把它转换成邻接列表。。基本上

src target
a     b
a    c
b    d
b    e

等等。。我想建立的是

a [b,c]
b [d,e]
.. and so on..

但有时。。我击中了一个超级节点..它有数百万条边

因此，仅键入节点id会导致较差的MR执行，因为这种掉队减速器

我一直在试着去理解“分裂者”。。但我不知道在这里怎么用

我如何解决这个掉队的问题？

谢谢

我不明白你的目的是什么。您知道如何生成单个输出文件吗？还是你想加速

如果希望获得单个输出文件，则可以将减缩器的数量设置为1

或者您可以使用srcID作为映射的键，targetID作为映射的值，这样具有相同srcID的k-v对就可以组合在同一个reducer中