Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/performance/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop初学者项目建议_Hadoop_Cloud_Mapreduce - Fatal编程技术网

Hadoop初学者项目建议

Hadoop初学者项目建议,hadoop,cloud,mapreduce,Hadoop,Cloud,Mapreduce,我很想找到一些主题,谢谢。MergeSort是一个非常好/简单的开始。你也可以一起去。一个很好的数据来源是公共领域图书库(您可以将其中的一些图书连接在一起) 如果您想要更高级但与单词计数相同的东西,您可以编写一个非常简单的分布式拼写检查器。彼得·诺维格(Peter Norvig)是一个用Python编写的令人敬畏的拼写检查器。一个很好的练习是扩展此算法,以分布式方式对文件进行操作。您有几个项目 这里有一些有趣的小hadoop项目示例。一切都描述得很好,另外你可以找到源代码和所有需要的理论 好吧,

我很想找到一些主题,谢谢。

MergeSort是一个非常好/简单的开始。你也可以一起去。一个很好的数据来源是公共领域图书库(您可以将其中的一些图书连接在一起)

如果您想要更高级但与单词计数相同的东西,您可以编写一个非常简单的分布式拼写检查器。彼得·诺维格(Peter Norvig)是一个用Python编写的令人敬畏的拼写检查器。一个很好的练习是扩展此算法,以分布式方式对文件进行操作。

您有几个项目


这里有一些有趣的小hadoop项目示例。一切都描述得很好,另外你可以找到源代码和所有需要的理论

好吧,如果没有更好地理解课程的水平/期望,我会犹豫评估任何想法。但我认为一个简单、易于完成的最终项目将是拼写检查器的分布式版本。一,如果在HDFS上排序,你可以使用一个更大的训练集,二,你可以以更快的速度处理文档,因为你可以独立地考虑每个单词(对于这个幼稚的算法)。最后,无论是在完成什么以及如何实现方面,它都比字数计数或合并排序高出了一步。非常感谢所有的帮助!:)没问题!还注意到底部列出了Norvig算法的Java实现,您可以查看这些实现,它们可能会帮助您入门。在页面底部,他链接到不同语言的实现。不过,Java实现对您不起作用,因为我怀疑它是以分布式方式运行的。这就是你工作的开始:-)。对不起,这要求太高了。这是一门学术课程,你需要自己做这项工作。通过督促自己完成最终项目(无论你决定做什么),你会学到很多东西。通过提交他人的代码,您什么也学不到。