Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/296.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Mapreduce在python中查找词频计数的作业_Python_Mapreduce_Word Count - Fatal编程技术网

Mapreduce在python中查找词频计数的作业

Mapreduce在python中查找词频计数的作业,python,mapreduce,word-count,Python,Mapreduce,Word Count,我有一个很大的单词数据集,我必须计算单词频率的计数。更具体地说,让我们说我有单词(be,To,the,the,now,now,now,see,see,see)。词频是 be:1,, 致:1,, 结果:2,, 现在:3,, 见:3 我想计算频率计数,所以我的输出是: 1:2 2:1 3:2 这可以在一个mapreduce程序中完成,还是我需要创建一个mapreduce作业来计算频率,再创建一个mapreduce作业来计算计数?正如您所预期的,我相信您需要两个mapreduce程序 数一数字数

我有一个很大的单词数据集,我必须计算单词频率的计数。更具体地说,让我们说我有单词(be,To,the,the,now,now,now,see,see,see)。词频是

be:1,, 致:1,, 结果:2,, 现在:3,, 见:3

我想计算频率计数,所以我的输出是:

1:2

2:1

3:2


这可以在一个mapreduce程序中完成,还是我需要创建一个mapreduce作业来计算频率,再创建一个mapreduce作业来计算计数?

正如您所预期的,我相信您需要两个
mapreduce
程序

  • 数一数字数
这将是正常的
wordcount
程序。一个很好的教程是

  • 数一数频率
它将非常类似于另一个
wordcount
程序。这些步骤将是:

  • 使用
    拆分输入行。e、 g.在
    上拆分
    now:3
    以具有
    now
    3
    (修剪)元素。这类似于在字数计算中按空格拆分每个单词

  • 根据值
    1
    (作为计数1)将数字部分写入上下文,即步骤1中的
    3
    应作为键->
    3
    ,值->
    1
    。它与输出一个
    word
    相同,在
    wordcount

  • 在reducer中,只需针对每个键聚合计数。它类似于
    wordcount
    中的聚合计数


  • 针对您的问题添加了答案。请查收。