Hadoop初学者项目建议_Hadoop_Cloud_Mapreduce

Hadoop初学者项目建议

hadoop cloud mapreduce

Hadoop初学者项目建议,hadoop,cloud,mapreduce,Hadoop,Cloud,Mapreduce,我很想找到一些主题，谢谢。MergeSort是一个非常好/简单的开始。你也可以一起去。一个很好的数据来源是公共领域图书库（您可以将其中的一些图书连接在一起）如果您想要更高级但与单词计数相同的东西，您可以编写一个非常简单的分布式拼写检查器。彼得·诺维格（Peter Norvig）是一个用Python编写的令人敬畏的拼写检查器。一个很好的练习是扩展此算法，以分布式方式对文件进行操作。您有几个项目这里有一些有趣的小hadoop项目示例。一切都描述得很好，另外你可以找到源代码和所有需要的理论好吧，

我很想找到一些主题，谢谢。

MergeSort是一个非常好/简单的开始。你也可以一起去。一个很好的数据来源是公共领域图书库（您可以将其中的一些图书连接在一起）

如果您想要更高级但与单词计数相同的东西，您可以编写一个非常简单的分布式拼写检查器。彼得·诺维格（Peter Norvig）是一个用Python编写的令人敬畏的拼写检查器。一个很好的练习是扩展此算法，以分布式方式对文件进行操作。

您有几个项目

这里有一些有趣的小hadoop项目示例。一切都描述得很好，另外你可以找到源代码和所有需要的理论

好吧，如果没有更好地理解课程的水平/期望，我会犹豫评估任何想法。但我认为一个简单、易于完成的最终项目将是拼写检查器的分布式版本。一，如果在HDFS上排序，你可以使用一个更大的训练集，二，你可以以更快的速度处理文档，因为你可以独立地考虑每个单词（对于这个幼稚的算法）。最后，无论是在完成什么以及如何实现方面，它都比字数计数或合并排序高出了一步。非常感谢所有的帮助！：）没问题！还注意到底部列出了Norvig算法的Java实现，您可以查看这些实现，它们可能会帮助您入门。在页面底部，他链接到不同语言的实现。不过，Java实现对您不起作用，因为我怀疑它是以分布式方式运行的。这就是你工作的开始：-）。对不起，这要求太高了。这是一门学术课程，你需要自己做这项工作。通过督促自己完成最终项目（无论你决定做什么），你会学到很多东西。通过提交他人的代码，您什么也学不到。