Hadoop 前N名最受欢迎的网站

Hadoop 前N名最受欢迎的网站,hadoop,Hadoop,我正在努力学习Hadoop,我有一个拥有数百万网页的服务器场。我不需要弄清楚哪些是十大最受欢迎的网页。如何在Hadoop中做到这一点?看看基本的字数示例。 您只需将“文本中的单词”替换为“url” 我刚刚意识到我在github上已经有了类似的东西,可以作为我不久前写的库的一个例子:好吧,这有点跳过了将web日志的摄取部分输入到HDFSI中,只回答了这个问题。鉴于这个问题目前的明确性,我选择将自己局限于实际被问到的问题。(而不是替他做家庭作业)当然,但你只是含糊其辞地回答问题,以此来帮助吸血鬼

我正在努力学习Hadoop,我有一个拥有数百万网页的服务器场。我不需要弄清楚哪些是十大最受欢迎的网页。如何在Hadoop中做到这一点?

看看基本的字数示例。 您只需将“文本中的单词”替换为“url”


我刚刚意识到我在github上已经有了类似的东西,可以作为我不久前写的库的一个例子:

好吧,这有点跳过了将web日志的摄取部分输入到HDFSI中,只回答了这个问题。鉴于这个问题目前的明确性,我选择将自己局限于实际被问到的问题。(而不是替他做家庭作业)当然,但你只是含糊其辞地回答问题,以此来帮助吸血鬼