Hadoop 色调、纱线和OOZIE有什么区别_Hadoop_Yarn_Oozie_Hue

Hadoop 色调、纱线和OOZIE有什么区别

hadoop

Hadoop 色调、纱线和OOZIE有什么区别,hadoop,yarn,oozie,hue,Hadoop,Yarn,Oozie,Hue,我了解HDFS和Map Reduce的概念，以及将处理逻辑转移到数据以提高效率的重要性。我甚至能够在我的基本Hadoop集群上运行一些MapReduce作业。围绕着这些概念，有许多不同的技术，如纱线、色调、OOZIE，所有这些技术似乎都在做相同的事情（至少从一个非常高的层次上），即作业的操作可见性和CRUD能力（可以是map reduce或其他东西）我的假设正确吗？或者两者之间有更根本的区别吗谢谢 Kay纱线-Map Reduce是一种API，您必须在其中实现数据处理逻辑。编译代码后，您必须

我了解HDFS和Map Reduce的概念，以及将处理逻辑转移到数据以提高效率的重要性。我甚至能够在我的基本Hadoop集群上运行一些MapReduce作业。围绕着这些概念，有许多不同的技术，如纱线、色调、OOZIE，所有这些技术似乎都在做相同的事情（至少从一个非常高的层次上），即作业的操作可见性和CRUD能力（可以是map reduce或其他东西）

我的假设正确吗？或者两者之间有更根本的区别吗

谢谢

Kay

纱线-Map Reduce是一种API，您必须在其中实现数据处理逻辑。编译代码后，您必须使用

hadoopjar

命令提交作业。纱线是一个框架，它将跟踪资源、在集群上提交作业、执行作业、显示/记录进度

OOZIE——以数据集成为例。您可能需要从一个数据库获取数据集，从另一个数据库获取其他数据集，然后要加入、处理数据并将其重新加载到缓存或第三个数据库中。它涉及两个sqoop作业来从数据库中提取数据，一个hive/map reduce作业来连接和处理数据，然后推入缓存/数据库。所有这些工作都是相互依赖的，例如：我们应该只在从源数据库提取数据之后处理数据。因此，我们需要创建一个工作流来执行完整的数据集成过程。OOZIE可以帮助你。它是基于map reduce的工作流工具。工作流it本身将作为一个或多个map reduce作业执行

HUE：Hadoop中有很多工具—HDFS（文件系统）、Sqoop、Hive/pig来处理数据、Impala、HBase等等。要执行POC，连接到集群可能会变得单调乏味。它还需要一些linux技能。为了克服这些挑战，所有Hadoop生态系统工具都整合在一个名为Hue的保护伞下

谢谢你的解释。我发现OOZIE工作流主要是通过命令行界面提交的。OOZIE UI似乎不提供创建/提交工作流功能。另一方面，色调似乎有一个更加光滑的界面，允许我们创建和提交OOZIE工作流。我的理解正确吗？是什么让我们对系统有了更多的操作可视性（关于正在运行的作业/工作流、哪些作业/工作流已失败、谁占用了资源等）OOZIE或HUE+1首先，我理解将处理逻辑移动到数据以提高效率的重要性