Hadoop 色调、纱线和OOZIE有什么区别

Hadoop 色调、纱线和OOZIE有什么区别,hadoop,yarn,oozie,hue,Hadoop,Yarn,Oozie,Hue,我了解HDFS和Map Reduce的概念,以及将处理逻辑转移到数据以提高效率的重要性。我甚至能够在我的基本Hadoop集群上运行一些MapReduce作业。围绕着这些概念,有许多不同的技术,如纱线、色调、OOZIE,所有这些技术似乎都在做相同的事情(至少从一个非常高的层次上),即作业的操作可见性和CRUD能力(可以是map reduce或其他东西) 我的假设正确吗?或者两者之间有更根本的区别吗 谢谢 Kay纱线-Map Reduce是一种API,您必须在其中实现数据处理逻辑。编译代码后,您必须

我了解HDFS和Map Reduce的概念,以及将处理逻辑转移到数据以提高效率的重要性。我甚至能够在我的基本Hadoop集群上运行一些MapReduce作业。围绕着这些概念,有许多不同的技术,如纱线、色调、OOZIE,所有这些技术似乎都在做相同的事情(至少从一个非常高的层次上),即作业的操作可见性和CRUD能力(可以是map reduce或其他东西)

我的假设正确吗?或者两者之间有更根本的区别吗

谢谢
Kay

纱线-Map Reduce是一种API,您必须在其中实现数据处理逻辑。编译代码后,您必须使用
hadoopjar
命令提交作业。纱线是一个框架,它将跟踪资源、在集群上提交作业、执行作业、显示/记录进度

OOZIE——以数据集成为例。您可能需要从一个数据库获取数据集,从另一个数据库获取其他数据集,然后要加入、处理数据并将其重新加载到缓存或第三个数据库中。它涉及两个sqoop作业来从数据库中提取数据,一个hive/map reduce作业来连接和处理数据,然后推入缓存/数据库。所有这些工作都是相互依赖的,例如:我们应该只在从源数据库提取数据之后处理数据。因此,我们需要创建一个工作流来执行完整的数据集成过程。OOZIE可以帮助你。它是基于map reduce的工作流工具。工作流it本身将作为一个或多个map reduce作业执行


HUE:Hadoop中有很多工具—HDFS(文件系统)、Sqoop、Hive/pig来处理数据、Impala、HBase等等。要执行POC,连接到集群可能会变得单调乏味。它还需要一些linux技能。为了克服这些挑战,所有Hadoop生态系统工具都整合在一个名为Hue的保护伞下

谢谢你的解释。我发现OOZIE工作流主要是通过命令行界面提交的。OOZIE UI似乎不提供创建/提交工作流功能。另一方面,色调似乎有一个更加光滑的界面,允许我们创建和提交OOZIE工作流。我的理解正确吗?是什么让我们对系统有了更多的操作可视性(关于正在运行的作业/工作流、哪些作业/工作流已失败、谁占用了资源等)OOZIE或HUE+1首先,我理解将处理逻辑移动到数据以提高效率的重要性