Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/369.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 映射reduce程序以统计表列中特定实体的频率_Java_Scala_Hadoop_Mapreduce_Word Count - Fatal编程技术网

Java 映射reduce程序以统计表列中特定实体的频率

Java 映射reduce程序以统计表列中特定实体的频率,java,scala,hadoop,mapreduce,word-count,Java,Scala,Hadoop,Mapreduce,Word Count,我们有一份表格数据集形式的营销报告,其模式如下: 我们需要编写一个map reduce程序,以找出最初引用源站点的最高频率,从而找出哪个网站最有效的广告平台 方法 删除在distinct_id列中具有重复实体的行 在初始参考列中计算每个实体的频率 发布每个标识的频率结果 我能够在Hive和pig中解决这个问题,但无法在MapReduce程序中得到正确的结果 任何参考或类似代码都会有所帮助。您尝试过哪些不起作用的代码?为什么不起作用?如果hive和pig足够好,为什么它必须是mapreduce

我们有一份表格数据集形式的营销报告,其模式如下:

我们需要编写一个map reduce程序,以找出最初引用源站点的最高频率,从而找出哪个网站最有效的广告平台

方法

  • 删除在distinct_id列中具有重复实体的行
  • 在初始参考列中计算每个实体的频率
  • 发布每个标识的频率结果
  • 我能够在Hive和pig中解决这个问题,但无法在MapReduce程序中得到正确的结果


    任何参考或类似代码都会有所帮助。

    您尝试过哪些不起作用的代码?为什么不起作用?如果hive和pig足够好,为什么它必须是mapreduce程序?Hive和pig确实作为mapreduce作业运行。您在这个问题上标记了Scala,您是用Scala还是Java编写代码?我尝试用Java编写map reduce代码,但无法获得预期的结果。请显示您的代码并具体说明您的问题。你的结果到底有什么不正确的地方,或者如果你有错误,这些错误是什么?