如何用python为Hadoop Map Reduce作业编写组合器和分区器?我如何在Hadoop工作中调用它

如何用python为Hadoop Map Reduce作业编写组合器和分区器?我如何在Hadoop工作中调用它,hadoop,mapreduce,Hadoop,Mapreduce,如何用python编写组合器和分区器作业,并使用Hadoop流调用它。请看一看。我没有对此进行探讨,但根据文件 Pydoop脚本使您能够为其编写简单的MapReduce程序 Hadoop只需几行代码就可以使用mapper和reducer函数。 当Pydoop脚本不够时,可以切换到更完整的脚本 Pydoop API,它提供了实现Python的能力 分区器、RecordReader和RecordWriter。Pydoop可能不是最好的选择 适用于所有Hadoop用例的最佳API,但其独特的特性使其成

如何用python编写组合器和分区器作业,并使用Hadoop流调用它。

请看一看。我没有对此进行探讨,但根据文件

Pydoop脚本使您能够为其编写简单的MapReduce程序 Hadoop只需几行代码就可以使用mapper和reducer函数。 当Pydoop脚本不够时,可以切换到更完整的脚本 Pydoop API,它提供了实现Python的能力 分区器、RecordReader和RecordWriter。Pydoop可能不是最好的选择 适用于所有Hadoop用例的最佳API,但其独特的特性使其成为 适用于特定场景,并正在积极改进

在基于Python的hadoop组合器上是一个非常重要的问题

附加参考


此外,还详细介绍了各种其他可用的hadoop python框架。

您可以使用Yelp。它很简单,有一个很好的文档,正如我自己使用的一样——使用与hadoop的Java库相同的接口。是的,它使用的是hadoop流媒体——性能可能就是这样。但是,不幸的是,您仍然需要在Java上编写分区器。

据我所知,Pydoop不能用于所有应用程序,因此我希望坚持使用hadoop流。除了Pydoop之外,没有其他方法在Python中实现组合器和分区器吗?