Java 映射reduce程序以统计表列中特定实体的频率
我们有一份表格数据集形式的营销报告,其模式如下: 我们需要编写一个map reduce程序,以找出最初引用源站点的最高频率,从而找出哪个网站最有效的广告平台 方法Java 映射reduce程序以统计表列中特定实体的频率,java,scala,hadoop,mapreduce,word-count,Java,Scala,Hadoop,Mapreduce,Word Count,我们有一份表格数据集形式的营销报告,其模式如下: 我们需要编写一个map reduce程序,以找出最初引用源站点的最高频率,从而找出哪个网站最有效的广告平台 方法 删除在distinct_id列中具有重复实体的行 在初始参考列中计算每个实体的频率 发布每个标识的频率结果 我能够在Hive和pig中解决这个问题,但无法在MapReduce程序中得到正确的结果 任何参考或类似代码都会有所帮助。您尝试过哪些不起作用的代码?为什么不起作用?如果hive和pig足够好,为什么它必须是mapreduce
任何参考或类似代码都会有所帮助。您尝试过哪些不起作用的代码?为什么不起作用?如果hive和pig足够好,为什么它必须是mapreduce程序?Hive和pig确实作为mapreduce作业运行。您在这个问题上标记了Scala,您是用Scala还是Java编写代码?我尝试用Java编写map reduce代码,但无法获得预期的结果。请显示您的代码并具体说明您的问题。你的结果到底有什么不正确的地方,或者如果你有错误,这些错误是什么?