Apache spark 火花与纱线_Apache Spark_Yarn_Resourcemanager_Apache Spark Standalone

Apache spark 火花与纱线

apache-spark

Apache spark 火花与纱线,apache-spark,yarn,resourcemanager,apache-spark-standalone,Apache Spark,Yarn,Resourcemanager,Apache Spark Standalone,对于仅运行Spark应用程序的多租户群集，Thread的哪些功能使其优于Spark单机模式？也许除了认证谷歌有很多答案，其中大部分听起来都不对，所以我不确定真相在哪里例如：单机版适用于小型Spark群集，但不适用于更大的集群（运行Spark守护进程会带来开销- 主节点+从节点（群集节点中）但是其他集群管理器也需要在集群节点上运行代理。也就是说，纱线的从属设备称为节点管理器。它们可能比Spark的从属设备消耗更多内存（Spark的默认值为1GB） Spark独立模式要求每个应用程序运

对于仅运行Spark应用程序的多租户群集，Thread的哪些功能使其优于Spark单机模式？也许除了认证

谷歌有很多答案，其中大部分听起来都不对，所以我不确定真相在哪里

例如：

单机版适用于小型Spark群集，但不适用于更大的集群（运行Spark守护进程会带来开销- 主节点+从节点（群集节点中）

但是其他集群管理器也需要在集群节点上运行代理。也就是说，纱线的从属设备称为节点管理器。它们可能比Spark的从属设备消耗更多内存（Spark的默认值为1GB）

Spark独立模式要求每个应用程序运行一个执行器在集群中的每个节点上；而对于纱线，则选择数字遗嘱执行人的使用

再次，这显示了如何在独立模式下指定消耗资源的数量

独立群集模式目前仅支持简单的FIFO 跨应用程序的调度程序

独立模式可以使用动态分配，您可以指定

spark.dynamicalocation.minExecutors

spark.dynamicalocation.maxecutors

。另外，我还没有发现关于Standalone不支持FairScheduler的说明

纱线直接处理机架和机器位置

在我的工作中，纱线如何了解数据位置？假设我将文件位置存储在AWS Glue（由EMR用作配置单元元存储）。在Spark作业中，我正在查询

一些db.some表

。怎样才能知道什么执行者更适合工作分配

UPD：发现了关于纱线和数据位置的另一个提及。以S3为例，这仍然无关紧要。

也许对于动态资源分配和资源队列，通过用户组、资源组和分配池使用Yarn@Vincent“资源队列”指的是纱线的容量调度器？请举一个例子，说明CapacityScheduler比独立模式动态分配更好吗？另外，我恐怕不熟悉纱线资源组。我刚才说的是资源池：这个问题应该得到一个真正的答案。要同时掌握详细的事实并不容易task@VB自本帖发布之日起，您的询问是否进一步？