Java Hadoop MapReduce的小型数据集_Java_Hadoop_Dataset_Mapreduce

Java Hadoop MapReduce的小型数据集

java hadoop mapreduce

Java Hadoop MapReduce的小型数据集,java,hadoop,dataset,mapreduce,Java,Hadoop,Dataset,Mapreduce,我正在努力熟悉Hadoop MapReduce。在学习了这些概念的理论知识之后，我想对它们进行实践但是，我找不到这种技术的小型数据集（高达3 Gb）。在哪里可以找到数据集进行练习或者，我如何练习Hadoop MapReduce？换句话说，有没有提供练习的教程或网站？为什么不自己创建一些数据集呢一件非常简单的事情是用数百万个随机数填充一个文件，然后使用Hadoop查找重复数、三元数、素数、因子中有重复数的数等等当然，这并不像在facebook上找到普通朋友那样有趣，但只要稍微练习一下Had

我正在努力熟悉Hadoop MapReduce。在学习了这些概念的理论知识之后，我想对它们进行实践

但是，我找不到这种技术的小型数据集（高达3 Gb）。在哪里可以找到数据集进行练习

或者，我如何练习Hadoop MapReduce？换句话说，有没有提供练习的教程或网站？

为什么不自己创建一些数据集呢

一件非常简单的事情是用数百万个随机数填充一个文件，然后使用Hadoop查找重复数、三元数、素数、因子中有重复数的数等等

当然，这并不像在facebook上找到普通朋友那样有趣，但只要稍微练习一下Hadoop就足够了。

可以下载和使用的可公开访问的数据集。下面是一个例子几个例子。

-作为比赛的一部分，它发布了一组用户评级数据，以挑战人们更好地发展推荐算法。未压缩的数据为2 GB+。它包含 1700部电影中480k用户的100 M+电影收视率

-例如，其中一个生物数据集是一个约550GB的带注释的人类基因组数据集。在下面经济学你可以找到数据集，如2000年美国人口普查（约 200 GB）

-卡内基梅隆大学语言技术研究所发布了ClueWeb09数据集来帮助大规模的网络研究。这是10种语言的10亿个网页的爬行。这个未压缩的数据集占用25 TB

或者，我如何练习Hadoop MapReduce？换句话说，有没有提供锻炼的教程或网站

以下是一些开始的建议。此外，它还为MapReduce中实现的一些算法（如页面排名、连接和索引）提供了伪代码

以下是随时间收集的一些公共数据集。你可能得挖一些小的

这很费时，对我来说不是一个好的练习。在我看来，研究有意义的数据集将提高我解决问题的能力。我不同意这两种观点，但当然这取决于你的决定。我认为简单的人工数据是一个更好的起点，因为您不必首先理解、解析或预处理它。此外，通过简单的任务和简单的数据，您可以更轻松地验证您的程序是否实际工作。祝你在基因组或电影收视率方面好运。