Hadoop纱线集群-在运行时添加节点_Hadoop_Yarn_Spark Streaming

Hadoop纱线集群-在运行时添加节点

hadoop

Hadoop纱线集群-在运行时添加节点,hadoop,yarn,spark-streaming,Hadoop,Yarn,Spark Streaming,我正在开发一个解决方案，为Hadoop纱线集群提供运行时资源。其目的是在我们的应用程序中处理重峰我不是专家，我需要帮助来批准/质疑我的理解 Hadoop纱线此应用程序可以在群集模式下运行。它提供资源管理（CPU和RAM）。例如，应用程序中的spark请求完成一项工作。纱线处理请求并在纱线簇上提供执行器计算 HDFS-数据和执行者数据不是通过执行器共享的，因此它们必须存储在文件系统中。在我的例子中：HDFS。这意味着我必须在新服务器（hadoop节点）上运行spark流媒体应用程序的副本

我正在开发一个解决方案，为Hadoop纱线集群提供运行时资源。其目的是在我们的应用程序中处理重峰

我不是专家，我需要帮助来批准/质疑我的理解

Hadoop纱线

此应用程序可以在群集模式下运行。它提供资源管理（CPU和RAM）。例如，应用程序中的spark请求完成一项工作。纱线处理请求并在纱线簇上提供执行器计算

HDFS-数据和执行者
数据不是通过执行器共享的，因此它们必须存储在文件系统中。在我的例子中：HDFS。这意味着我必须在新服务器（hadoop节点）上运行spark流媒体应用程序的副本
我不确定这一点：
纱线集群和HDFS不同，在HDFS上写入不会在新的hadoop节点本地数据上写入（因为它不是HDFS节点）
由于我将只在HDFS上编写来自spark流媒体应用程序的新数据，因此创建一个新应用程序应该不是问题

将作业提交给纱线
---峰值，所需资源

实例新服务器

安装/配置Hadoop&Thread，使其成为从属

修改hadoop/conf/slaves，添加其ip地址（或主机文件中的dns名称）

修改dfs.include和mapred.include
在主机上：

纱线-刷新节点

bin/hadoop dfsadmin-刷新节点

bin/hadoop mradmin-刷新节点

这样行吗？refreshQueues在这里听起来不是很有用，因为它似乎只负责处理进程队列
我不确定正在运行的作业是否会增加其容量。另一个想法是等待新资源可用并提交新作业

感谢您的帮助
这并不能直接回答您的问题，但我的建议是开始阅读《hadoop权威指南》一书。你没有正确理解大多数hadoop概念这并不能直接回答你的问题，但我的建议是开始阅读《hadoop权威指南》一书。大多数hadoop概念都不正确