Hadoop pagerank如何在mapreduce模型中迭代?
我对pagerank算法如何与mapreduce模型一起工作感到困惑 主要的困惑是,在Phasei之后,val是与关键URL(而不是outlinks)的内联,所以它如何在下一次迭代中工作 请参见下面的示例:Hadoop pagerank如何在mapreduce模型中迭代?,hadoop,mapreduce,pagerank,Hadoop,Mapreduce,Pagerank,我对pagerank算法如何与mapreduce模型一起工作感到困惑 主要的困惑是,在Phasei之后,val是与关键URL(而不是outlinks)的内联,所以它如何在下一次迭代中工作 请参见下面的示例: txt: A->B A->C B->A C->B WORKER1 WORKER2 LOAD A->B B->A A->C C
txt:
A->B
A->C
B->A
C->B
WORKER1 WORKER2
LOAD
A->B B->A
A->C C->B
MAP
(A,B) (B,A)
(A,C) (C,B)
SHUFFLE AND DISTRIBUTE
(A,[B,C]) (B,[A])
(C,[B])
REDUCE
(A,(PR(A),[B,C],2)) (B,(PR(B),[A],1))
(C,(PR(C),[B],1))
MAP(PHASE2)
(B,(PR(A)/2,2)) (A,(PR(B)/1,1))
(C,(PR(A)/2,2)) (B,(PR(C)/1,1))
SHUFFLED AND DISTRIBUTE
(A,[PR(B)/1]) (B,[PR(A)/2,PR(C)/1])
(C,[PR(A)/2])
RERUCE
(A,(NEWPR(A),[B],2)) (B,(NEWPR(B),[A,C],1))
(C,(NEWPR(C),[A],1))
到目前为止,我丢失了大纲链接信息,我的错误在哪里?您需要一个结构(节点id、页面排名、邻接列表)来存储页面链接、PR和邻接列表
一本训练MapReduce思维的好书是。在5.3 PAGERANK中,有一个关于如何在MapReduce中实现PAGERANK的详细信息。您好,我想知道如何在iter1之后获得邻接列表?