Apache spark 火花与纱线

Apache spark 火花与纱线,apache-spark,yarn,resourcemanager,apache-spark-standalone,Apache Spark,Yarn,Resourcemanager,Apache Spark Standalone,对于仅运行Spark应用程序的多租户群集,Thread的哪些功能使其优于Spark单机模式?也许除了认证 谷歌有很多答案,其中大部分听起来都不对,所以我不确定真相在哪里 例如: 单机版适用于小型Spark群集,但不适用于 更大的集群(运行Spark守护进程会带来开销- 主节点+从节点(群集节点中) 但是其他集群管理器也需要在集群节点上运行代理。也就是说,纱线的从属设备称为节点管理器。它们可能比Spark的从属设备消耗更多内存(Spark的默认值为1GB) Spark独立模式要求每个应用程序运

对于仅运行Spark应用程序的多租户群集,Thread的哪些功能使其优于Spark单机模式?也许除了认证

谷歌有很多答案,其中大部分听起来都不对,所以我不确定真相在哪里

例如:

  • 单机版适用于小型Spark群集,但不适用于 更大的集群(运行Spark守护进程会带来开销- 主节点+从节点(群集节点中)

    但是其他集群管理器也需要在集群节点上运行代理。也就是说,纱线的从属设备称为节点管理器。它们可能比Spark的从属设备消耗更多内存(Spark的默认值为1GB)

  • Spark独立模式要求每个应用程序运行一个执行器 在集群中的每个节点上;而对于纱线,则选择数字 遗嘱执行人的使用

    再次,这显示了如何在独立模式下指定消耗资源的数量

  • 独立群集模式目前仅支持简单的FIFO 跨应用程序的调度程序

    独立模式可以使用动态分配,您可以指定
    spark.dynamicalocation.minExecutors
    &
    spark.dynamicalocation.maxecutors
    。另外,我还没有发现关于Standalone不支持FairScheduler的说明

  • 纱线直接处理机架和机器位置

    在我的工作中,纱线如何了解数据位置?假设我将文件位置存储在AWS Glue(由EMR用作配置单元元存储)。在Spark作业中,我正在查询
    一些db.some表
    。怎样才能知道什么执行者更适合工作分配


    UPD:发现了关于纱线和数据位置的另一个提及。以S3为例,这仍然无关紧要。

    也许对于动态资源分配和资源队列,通过用户组、资源组和分配池使用Yarn@Vincent“资源队列”指的是纱线的容量调度器?请举一个例子,说明CapacityScheduler比独立模式动态分配更好吗?另外,我恐怕不熟悉纱线资源组。我刚才说的是资源池:这个问题应该得到一个真正的答案。要同时掌握详细的事实并不容易task@VB自本帖发布之日起,您的询问是否进一步?