Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/xslt/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop纱线集群-在运行时添加节点_Hadoop_Yarn_Spark Streaming - Fatal编程技术网

Hadoop纱线集群-在运行时添加节点

Hadoop纱线集群-在运行时添加节点,hadoop,yarn,spark-streaming,Hadoop,Yarn,Spark Streaming,我正在开发一个解决方案,为Hadoop纱线集群提供运行时资源。其目的是在我们的应用程序中处理重峰 我不是专家,我需要帮助来批准/质疑我的理解 Hadoop纱线 此应用程序可以在群集模式下运行。它提供资源管理(CPU和RAM)。 例如,应用程序中的spark请求完成一项工作。纱线处理请求并在纱线簇上提供执行器计算 HDFS-数据和执行者 数据不是通过执行器共享的,因此它们必须存储在文件系统中。在我的例子中:HDFS。这意味着我必须在新服务器(hadoop节点)上运行spark流媒体应用程序的副本

我正在开发一个解决方案,为Hadoop纱线集群提供运行时资源。其目的是在我们的应用程序中处理重峰

我不是专家,我需要帮助来批准/质疑我的理解

Hadoop纱线

此应用程序可以在群集模式下运行。它提供资源管理(CPU和RAM)。 例如,应用程序中的spark请求完成一项工作。纱线处理请求并在纱线簇上提供执行器计算

HDFS-数据和执行者

数据不是通过执行器共享的,因此它们必须存储在文件系统中。在我的例子中:HDFS。这意味着我必须在新服务器(hadoop节点)上运行spark流媒体应用程序的副本

我不确定这一点

纱线集群和HDFS不同,在HDFS上写入不会在新的hadoop节点本地数据上写入(因为它不是HDFS节点)

由于我将只在HDFS上编写来自spark流媒体应用程序的新数据,因此创建一个新应用程序应该不是问题

  • 将作业提交给纱线
    ---峰值,所需资源
  • 实例新服务器
  • 安装/配置Hadoop&Thread,使其成为从属

    • 修改hadoop/conf/slaves,添加其ip地址(或主机文件中的dns名称)
    • 修改dfs.include和mapred.include

      在主机上:

    • 纱线-刷新节点
    • bin/hadoop dfsadmin-刷新节点
    • bin/hadoop mradmin-刷新节点
  • 这样行吗?refreshQueues在这里听起来不是很有用,因为它似乎只负责处理进程队列

    我不确定正在运行的作业是否会增加其容量。另一个想法是等待新资源可用并提交新作业


    感谢您的帮助

    这并不能直接回答您的问题,但我的建议是开始阅读《hadoop权威指南》一书。你没有正确理解大多数hadoop概念这并不能直接回答你的问题,但我的建议是开始阅读《hadoop权威指南》一书。大多数hadoop概念都不正确