Mapreduce在python中查找词频计数的作业
我有一个很大的单词数据集,我必须计算单词频率的计数。更具体地说,让我们说我有单词(be,To,the,the,now,now,now,see,see,see)。词频是 be:1,, 致:1,, 结果:2,, 现在:3,, 见:3 我想计算频率计数,所以我的输出是: 1:2 2:1 3:2Mapreduce在python中查找词频计数的作业,python,mapreduce,word-count,Python,Mapreduce,Word Count,我有一个很大的单词数据集,我必须计算单词频率的计数。更具体地说,让我们说我有单词(be,To,the,the,now,now,now,see,see,see)。词频是 be:1,, 致:1,, 结果:2,, 现在:3,, 见:3 我想计算频率计数,所以我的输出是: 1:2 2:1 3:2 这可以在一个mapreduce程序中完成,还是我需要创建一个mapreduce作业来计算频率,再创建一个mapreduce作业来计算计数?正如您所预期的,我相信您需要两个mapreduce程序 数一数字数
这可以在一个mapreduce程序中完成,还是我需要创建一个mapreduce作业来计算频率,再创建一个mapreduce作业来计算计数?正如您所预期的,我相信您需要两个
mapreduce
程序
- 数一数字数
wordcount
程序。一个很好的教程是
- 数一数频率
wordcount
程序。这些步骤将是:
:
拆分输入行。e、 g.在上拆分now:3
:
以具有now
和3
(修剪)元素。这类似于在字数计算中按空格拆分每个单词1
(作为计数1)将数字部分写入上下文,即步骤1中的3
应作为键->3
,值->1
。它与输出一个word
相同,在wordcount
wordcount
中的聚合计数针对您的问题添加了答案。请查收。