Apache spark 火花与纱线
对于仅运行Spark应用程序的多租户群集,Thread的哪些功能使其优于Spark单机模式?也许除了认证 谷歌有很多答案,其中大部分听起来都不对,所以我不确定真相在哪里 例如:Apache spark 火花与纱线,apache-spark,yarn,resourcemanager,apache-spark-standalone,Apache Spark,Yarn,Resourcemanager,Apache Spark Standalone,对于仅运行Spark应用程序的多租户群集,Thread的哪些功能使其优于Spark单机模式?也许除了认证 谷歌有很多答案,其中大部分听起来都不对,所以我不确定真相在哪里 例如: 单机版适用于小型Spark群集,但不适用于 更大的集群(运行Spark守护进程会带来开销- 主节点+从节点(群集节点中) 但是其他集群管理器也需要在集群节点上运行代理。也就是说,纱线的从属设备称为节点管理器。它们可能比Spark的从属设备消耗更多内存(Spark的默认值为1GB) Spark独立模式要求每个应用程序运
spark.dynamicalocation.minExecutors
&spark.dynamicalocation.maxecutors
。另外,我还没有发现关于Standalone不支持FairScheduler的说明
纱线直接处理机架和机器位置
在我的工作中,纱线如何了解数据位置?假设我将文件位置存储在AWS Glue(由EMR用作配置单元元存储)。在Spark作业中,我正在查询一些db.some表
。怎样才能知道什么执行者更适合工作分配
UPD:发现了关于纱线和数据位置的另一个提及。以S3为例,这仍然无关紧要。也许对于动态资源分配和资源队列,通过用户组、资源组和分配池使用Yarn@Vincent“资源队列”指的是纱线的容量调度器?请举一个例子,说明CapacityScheduler比独立模式动态分配更好吗?另外,我恐怕不熟悉纱线资源组。我刚才说的是资源池:这个问题应该得到一个真正的答案。要同时掌握详细的事实并不容易task@VB自本帖发布之日起,您的询问是否进一步?