Apache spark 如何创建定制的ApacheSpark调度器?

Apache spark 如何创建定制的ApacheSpark调度器?,apache-spark,pyspark,scalability,scheduler,distributed-computing,Apache Spark,Pyspark,Scalability,Scheduler,Distributed Computing,我有一个p2p网状网络节点。它有自己的平衡,并且给定一个任务T可以可靠地执行它(如果一个节点失败,另一个节点将继续)。我的mesh网络有Java和Python API。我想知道使Spark调用成为午餐任务的API需要哪些步骤 看看现有调度器(纱线和meso)是如何实现的 为您的系统实现调度程序 将您的更改贡献给ApacheSpark项目 哦,天哪,这是一个非常宽泛的问题,但我同意丹尼尔的观点。如果您确实想这样做,您可以先从以下内容开始: ,其中陈述了如下内容: 作为Spark中的调度器后端,假定

我有一个p2p网状网络节点。它有自己的平衡,并且给定一个任务
T
可以可靠地执行它(如果一个节点失败,另一个节点将继续)。我的mesh网络有Java和Python API。我想知道使Spark调用成为午餐任务的API需要哪些步骤

  • 看看现有调度器(纱线和meso)是如何实现的
  • 为您的系统实现调度程序
  • 将您的更改贡献给ApacheSpark项目

  • 哦,天哪,这是一个非常宽泛的问题,但我同意丹尼尔的观点。如果您确实想这样做,您可以先从以下内容开始:

  • ,其中陈述了如下内容:

    作为Spark中的调度器后端,假定采用类似ApacheMesos的模型,其中“应用程序”作为机器获取资源 变得可用并可以在其上启动任务。曾经是一名调度员 后端获得资源分配,可以启动执行器

  • ,因为您需要了解任务的含义 被安排来构建一个调度器,其中提到 这:

    TaskScheduler获取每个阶段从DAGScheduler提交给它的任务集(作为任务集),并负责发送 将任务发送到群集,运行任务,如果有任务,请重试 失败,以及减少掉队者

    这里的一个重要概念是依赖无环图(GDA), 在那里你可以看看它的GitHub

    你也可以阅读 获得直觉

  • 也可以来 方便:

    Spark侦听器拦截Spark调度程序在Spark应用程序执行过程中发出的事件

    你可以先看一下你的理解

  • 总的来说,似乎有足够的资源,但我不会在这里列出更多


    然后,你必须会见游戏中的最后一位老板,Spark的调度程序GitHub,并获得这种感觉。希望所有这些都足以让您开始学习!:)