Apache spark 通过添加新集群扩展Spark应用程序_Apache Spark

Apache spark 通过添加新集群扩展Spark应用程序

apache-spark

Apache spark 通过添加新集群扩展Spark应用程序,apache-spark,Apache Spark,我的大数据项目有下一个SLA：无论并发spark任务的数量如何，最大执行时间不应超过5分钟。例如：有10个spark并发任务，最慢的任务需要

我的大数据项目有下一个SLA：无论并发spark任务的数量如何，最大执行时间不应超过5分钟。例如：有10个spark并发任务，最慢的任务需要<5分钟，随着任务数量的增加，我必须确保这一时间不会超过5分钟。这里不适合使用通常的自动缩放，因为添加新节点需要几分钟的时间，并且不能解决任务指数增长的问题（例如，从10个并发任务倾斜到30个并发任务）

我想到了按需启动新集群的想法，以满足SLA要求。比方说，我发现并发任务的最大数量（它们几乎相等并且占用相同的资源）可以在5分钟内在我的集群上同时执行，例如-30个任务。当任务数量接近阈值时，新集群将启动。这种模式的思想是在自动缩放过程中克服慢度并满足SLA

我的下一个问题是：除了在单个集群上自动缩放之外，我的模式还有其他选择吗（因为我的spark提供程序太慢，所以它不适合我的用例）