Java Hadoop MapReduce的小型数据集

Java Hadoop MapReduce的小型数据集,java,hadoop,dataset,mapreduce,Java,Hadoop,Dataset,Mapreduce,我正在努力熟悉Hadoop MapReduce。在学习了这些概念的理论知识之后,我想对它们进行实践 但是,我找不到这种技术的小型数据集(高达3 Gb)。在哪里可以找到数据集进行练习 或者,我如何练习Hadoop MapReduce?换句话说,有没有提供练习的教程或网站?为什么不自己创建一些数据集呢 一件非常简单的事情是用数百万个随机数填充一个文件,然后使用Hadoop查找重复数、三元数、素数、因子中有重复数的数等等 当然,这并不像在facebook上找到普通朋友那样有趣,但只要稍微练习一下Had

我正在努力熟悉Hadoop MapReduce。在学习了这些概念的理论知识之后,我想对它们进行实践

但是,我找不到这种技术的小型数据集(高达3 Gb)。在哪里可以找到数据集进行练习


或者,我如何练习Hadoop MapReduce?换句话说,有没有提供练习的教程或网站?

为什么不自己创建一些数据集呢

一件非常简单的事情是用数百万个随机数填充一个文件,然后使用Hadoop查找重复数、三元数、素数、因子中有重复数的数等等

当然,这并不像在facebook上找到普通朋友那样有趣,但只要稍微练习一下Hadoop就足够了。

可以下载和使用的可公开访问的数据集。下面是一个例子 几个例子。

-作为比赛的一部分, 它发布了一组用户评级数据,以挑战人们更好地发展 推荐算法。未压缩的数据为2 GB+。它包含 1700部电影中480k用户的100 M+电影收视率

-例如,其中一个 生物数据集是一个约550GB的带注释的人类基因组数据集。在下面 经济学你可以找到数据集,如2000年美国人口普查(约 200 GB)

-卡内基梅隆大学 语言技术研究所发布了ClueWeb09数据集来帮助 大规模的网络研究。这是10种语言的10亿个网页的爬行。这个 未压缩的数据集占用25 TB

或者,我如何练习Hadoop MapReduce?换句话说,有没有提供锻炼的教程或网站

以下是一些开始的建议。此外,它还为MapReduce中实现的一些算法(如页面排名、连接和索引)提供了伪代码

以下是随时间收集的一些公共数据集。你可能得挖一些小的












这很费时,对我来说不是一个好的练习。在我看来,研究有意义的数据集将提高我解决问题的能力。我不同意这两种观点,但当然这取决于你的决定。我认为简单的人工数据是一个更好的起点,因为您不必首先理解、解析或预处理它。此外,通过简单的任务和简单的数据,您可以更轻松地验证您的程序是否实际工作。祝你在基因组或电影收视率方面好运。