什么';mapReduce模式的最佳python实现是什么?
对于什么';mapReduce模式的最佳python实现是什么?,python,mapreduce,Python,Mapreduce,对于MapReduce,一个框架或库,最好的Python实现是什么?它可能与Apachehadoopone一样好,但如果它是Python,并且在良好的文档记录和易于理解方面是最好的,那么它完全针对MapReduce模式实现,具有高可扩展性、高稳定性和轻量级 我在谷歌上搜索了一个名为“碎肉”(mincemeat)的网站,不太清楚,但还有其他知名的网站吗 谢谢如果您搜索,这里和那里都有一些物品。例如,以及 然而,我不相信他们中的任何一个能够在成熟度、稳定性、可伸缩性、性能等方面与Hadoop竞争。对
MapReduce
,一个框架或库,最好的Python实现是什么?它可能与Apachehadoop
one一样好,但如果它是Python,并且在良好的文档记录和易于理解方面是最好的,那么它完全针对MapReduce
模式实现,具有高可扩展性、高稳定性和轻量级
我在谷歌上搜索了一个名为“碎肉”(mincemeat)的网站,不太清楚,但还有其他知名的网站吗
谢谢如果您搜索,这里和那里都有一些物品。例如,以及 然而,我不相信他们中的任何一个能够在成熟度、稳定性、可伸缩性、性能等方面与Hadoop竞争。对于小案例来说,他们应该足够了,但是对于更“光荣”的东西,你必须坚持Hadoop 请记住,您仍然可以使用python/jython在Hadoop中编写map/reduce程序
编辑:我最近遇到过。这看起来很棒,因为它简化了编写map/reduce程序的过程,然后在Hadoop或Amazon的弹性MapReduce平台上启动它们。带来好消息的那篇文章是你还应该看看Mrs 它特别适合计算密集型迭代程序。2019年更新: 我强烈推荐 === 另一个好的选择是 下面是运行map/reduce进行单词计数的代码
def mapper(key,value):
for word in value.split(): yield word,1
def reducer(key,values):
yield key,sum(values)
if __name__ == "__main__":
import dumbo
dumbo.run(mapper,reducer)
要运行它,只需输入文本文件wc\u input.txt
进行计数,输出保存为wc\u output
python -m dumbo wordcount.py -hadoop /path/to/hadoop -input wc_input.txt -output wc_output