如何处理hadoop中的掉队还原程序

如何处理hadoop中的掉队还原程序,hadoop,Hadoop,我有一个非常简单的用例。。。 基本上,我有一个边列表,我正试图把它转换成邻接列表。。 基本上 src target a b a c b d b e 等等。。 我想建立的是 a [b,c] b [d,e] .. and so on.. 但有时。。我击中了一个超级节点..它有数百万条边 因此,仅键入节点id会导致较差的MR执行,因为这种掉队减速器 我一直在试着去理解“分裂者”。。但我不知道在这里怎么用 我如何解决这个掉队的问题? 谢谢我不明白你的目的是什么。您知道如何生

我有一个非常简单的用例。。。 基本上,我有一个边列表,我正试图把它转换成邻接列表。。 基本上

src target
a     b
a    c
b    d
b    e
等等。。 我想建立的是

a [b,c]
b [d,e]
.. and so on..
但有时。。我击中了一个超级节点..它有数百万条边

因此,仅键入节点id会导致较差的MR执行,因为这种掉队减速器

我一直在试着去理解“分裂者”。。但我不知道在这里怎么用

我如何解决这个掉队的问题?
谢谢

我不明白你的目的是什么。您知道如何生成单个输出文件吗?还是你想加速

如果希望获得单个输出文件,则可以将减缩器的数量设置为1

或者您可以使用srcID作为映射的键,targetID作为映射的值,这样具有相同srcID的k-v对就可以组合在同一个reducer中