Python Hadoop纱线vs mapreduce

Python Hadoop纱线vs mapreduce,python,hadoop,mapreduce,yarn,Python,Hadoop,Mapreduce,Yarn,我已经在我的机器上安装了Hadoop-2.6.0并启动了所有服务 与旧版本相比,此版本不会启动作业跟踪器和任务跟踪器作业,而是启动nodemanager和resourcemanager 问题:- 我相信这个版本的Hadoop使用纱线来运行作业。我不能再运行map reduce作业了吗 我应该写一份适合纱线资源经理和应用程序经理的工作吗 有我可以提交的Python作业示例吗 我相信这个版本的Hadoop使用纱线来运行作业。我不能再运行map reduce作业了吗 运行MapReduce作业仍然可以

我已经在我的机器上安装了Hadoop-2.6.0并启动了所有服务

与旧版本相比,此版本不会启动作业跟踪器和任务跟踪器作业,而是启动nodemanager和resourcemanager

问题:-

  • 我相信这个版本的Hadoop使用纱线来运行作业。我不能再运行map reduce作业了吗
  • 我应该写一份适合纱线资源经理和应用程序经理的工作吗
  • 有我可以提交的Python作业示例吗
  • 我相信这个版本的Hadoop使用纱线来运行作业。我不能再运行map reduce作业了吗
  • 运行MapReduce作业仍然可以。纱线是Hadoop集群中集群计算内部的重新架构,但该重新架构保持了与经典Hadoop 1.x MapReduce的公共API兼容性。上的Apache Hadoop文档更详细地讨论了重新体系结构。文件末尾有相关的报价:

    MRV2与以前的稳定版本(hadoop-1.x)保持API兼容性。这意味着所有Map Reduce作业仍应在MRv2上运行,而只需重新编译


  • 我应该写一份适合纱线资源经理和应用程序经理的工作吗
  • 如果您已经习惯于编写MapReduce作业或更高级别的抽象,如Pig脚本和Hive查询,那么您不需要更改作为最终用户所做的任何事情。上述API兼容性意味着所有这些都可以继续正常工作。欢迎您编写专门针对Thread框架的定制分布式应用程序,但如果您只想坚持使用Hadoop 1.x风格的数据处理作业,则不需要使用这种更高级的用法。ApacheHadoop文档包含一个页面,介绍您是否有兴趣探索这个问题


  • 有我可以提交的Python作业示例吗
  • 我建议您在上查看ApacheHadoop文档。Hadoop流允许您仅基于读取stdin和写入stdout编写MapReduce作业。这是一个非常通用的pardigm,因此它意味着您可以使用几乎任何您想要的代码,包括Python


    一般来说,您似乎会从探索ApacheHadoop文档站点中获益。这里有很多有用的信息。

    谢谢,这意味着,当我执行start-dfs.sh脚本时,作业跟踪器和任务跟踪器仍然应该启动,对吗?@user1050619,不,在Hadoop 2.x中,您永远不会看到名为JobTracker或TaskTracker的进程启动。相反,旧JobTracker的职责现在由ResourceManager和特定于应用程序的应用程序管理员的组合来承担。NodeManager有点类似于旧的TaskTracker,它负责启动“容器”以代表应用程序执行工作单元。感谢您的澄清。