Apache spark 如果set--num-executor对Spark中的大/小数据集具有高值,会发生什么

Apache spark 如果set--num-executor对Spark中的大/小数据集具有高值,会发生什么,apache-spark,yarn,Apache Spark,Yarn,我试图找到两个问题的答案 在纱线集群环境中,假设我设置--num-executor 100,我们想要处理像20TB这样的大数据集。考虑其他应用程序已经在运行。当我的应用程序启动时会发生什么?应用程序将等待100个执行者,还是将启动 以上问题与小数据集有关 请你帮忙好吗 在纱线集群环境中,假设我设置--num-executor 100,我们想要处理像20TB这样的大数据集。考虑其他应用程序已经在运行。当我的应用程序启动时会发生什么?应用程序将等待100个执行者,还是将启动 首先,纱线资源管理器将检

我试图找到两个问题的答案

  • 在纱线集群环境中,假设我设置--num-executor 100,我们想要处理像20TB这样的大数据集。考虑其他应用程序已经在运行。当我的应用程序启动时会发生什么?应用程序将等待100个执行者,还是将启动
  • 以上问题与小数据集有关
  • 请你帮忙好吗

  • 在纱线集群环境中,假设我设置--num-executor 100,我们想要处理像20TB这样的大数据集。考虑其他应用程序已经在运行。当我的应用程序启动时会发生什么?应用程序将等待100个执行者,还是将启动
  • 首先,纱线资源管理器将检查是否有任何资源可供您的作业运行,直到您的作业申请状态处于“已接受”状态。资源可用后,应用程序状态将变为运行状态。 如果将--num-executor指定为100或1000 executor,则无所谓。。纱线资源管理器仅根据资源可用性启动执行器的数量。 如果您的群集是免费的,并且能够运行“N”执行器,则它将启动“N”,否则这取决于群集中的资源可用性。


    注意:当您在集群中同时运行多个应用程序时,纱线调度(公平或容量)也起着重要作用。

    感谢kavetiraviteja的回答。但如果你是说,100或1000不重要,执行器将根据资源可用性启动那么此配置设置的意义是什么?@D_Tiwari这也是告诉资源管理器我需要尽可能多的执行器来使用大部分资源的一种方式,否则您可以找到可以使用的执行器的确切数量(对集群资源的简单计算)并在命令行中传递该值。