Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/ember.js/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 通过添加新集群扩展Spark应用程序_Apache Spark - Fatal编程技术网

Apache spark 通过添加新集群扩展Spark应用程序

Apache spark 通过添加新集群扩展Spark应用程序,apache-spark,Apache Spark,我的大数据项目有下一个SLA:无论并发spark任务的数量如何,最大执行时间不应超过5分钟。例如:有10个spark并发任务, 最慢的任务需要

我的大数据项目有下一个SLA:无论并发spark任务的数量如何,最大执行时间不应超过5分钟。例如:有10个spark并发任务, 最慢的任务需要<5分钟,随着任务数量的增加,我必须确保这一时间不会超过5分钟。这里不适合使用通常的自动缩放,因为添加新节点需要几分钟的时间,并且不能解决任务指数增长的问题(例如,从10个并发任务倾斜到30个并发任务)

我想到了按需启动新集群的想法,以满足SLA要求。比方说,我发现并发任务的最大数量(它们几乎相等并且占用相同的资源)可以在5分钟内在我的集群上同时执行,例如-30个任务。当任务数量接近阈值时,新集群将启动。这种模式的思想是在自动缩放过程中克服慢度并满足SLA

我的下一个问题是:除了在单个集群上自动缩放之外,我的模式还有其他选择吗(因为我的spark提供程序太慢,所以它不适合我的用例)