如何处理hadoop中的掉队还原程序
我有一个非常简单的用例。。。 基本上,我有一个边列表,我正试图把它转换成邻接列表。。 基本上如何处理hadoop中的掉队还原程序,hadoop,Hadoop,我有一个非常简单的用例。。。 基本上,我有一个边列表,我正试图把它转换成邻接列表。。 基本上 src target a b a c b d b e 等等。。 我想建立的是 a [b,c] b [d,e] .. and so on.. 但有时。。我击中了一个超级节点..它有数百万条边 因此,仅键入节点id会导致较差的MR执行,因为这种掉队减速器 我一直在试着去理解“分裂者”。。但我不知道在这里怎么用 我如何解决这个掉队的问题? 谢谢我不明白你的目的是什么。您知道如何生
src target
a b
a c
b d
b e
等等。。
我想建立的是
a [b,c]
b [d,e]
.. and so on..
但有时。。我击中了一个超级节点..它有数百万条边
因此,仅键入节点id会导致较差的MR执行,因为这种掉队减速器
我一直在试着去理解“分裂者”。。但我不知道在这里怎么用
我如何解决这个掉队的问题?
谢谢我不明白你的目的是什么。您知道如何生成单个输出文件吗?还是你想加速 如果希望获得单个输出文件,则可以将减缩器的数量设置为1 或者您可以使用srcID作为映射的键,targetID作为映射的值,这样具有相同srcID的k-v对就可以组合在同一个reducer中