Apache spark 火花纺纱机

Apache spark 火花纺纱机,apache-spark,Apache Spark,我们目前正在评估集群上的Spark,该集群已经支持MRv2而不是纱线 我们注意到并发运行作业有一个问题,特别是在作业完成之前,正在运行的Spark作业不会释放其资源。理想情况下,如果两个人同时运行MRv2和Spark作业,那么资源应该公平分配 我注意到Spark 1.2中有一个名为“动态资源分配”的功能,但这似乎并没有解决问题,因为它只在Spark空闲时释放资源,而不是在Spark繁忙时释放资源 我还没有找到关于这件事的任何进一步的信息。另一方面,我觉得这对于很多用户来说是一个相当普遍的问题 所

我们目前正在评估集群上的Spark,该集群已经支持MRv2而不是纱线

我们注意到并发运行作业有一个问题,特别是在作业完成之前,正在运行的Spark作业不会释放其资源。理想情况下,如果两个人同时运行MRv2和Spark作业,那么资源应该公平分配

我注意到Spark 1.2中有一个名为“动态资源分配”的功能,但这似乎并没有解决问题,因为它只在Spark空闲时释放资源,而不是在Spark繁忙时释放资源

我还没有找到关于这件事的任何进一步的信息。另一方面,我觉得这对于很多用户来说是一个相当普遍的问题

所以

  • 您在处理多租户MRv2和带有纱线的火花簇时有何经验
  • Spark在架构上是否能够支持在繁忙时释放资源?这是一项计划中的功能,还是与Spark executors的理念相冲突
    我们使用动态分配,效果很好。我不明白这句话:“在忙的时候释放资源?”-如果需要,为什么要释放资源。此外,您还可以尝试使用纱线动态池,例如为jobsHi@EugeneZhulenev先生设置更高的优先级让我解释一下。Spark的用户A以100%的资源利用率运行其作业,以尽快完成作业,需要2天时间。同时,用户B将运行他的作业,这需要1小时。两个用户都可以再等两个小时。那么,如果用户A始终使用100%的资源,动态资源分配是否有帮助呢?如果有10个用户,而第一个用户可以利用所有资源呢?我所寻找的是类似于MapReduce的方法,即新用户获得公平的资源份额。有火花吗?谢谢