Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/cassandra/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark spark cassandra集群中的自动扩展_Apache Spark_Cassandra_Autoscaling - Fatal编程技术网

Apache spark spark cassandra集群中的自动扩展

Apache spark spark cassandra集群中的自动扩展,apache-spark,cassandra,autoscaling,Apache Spark,Cassandra,Autoscaling,如何根据工作负载动态添加或删除spark cassandra群集资源(工作线程、执行器、内核、内存等)?我们可以在部署之前预测集群资源吗?从集群中缩小/删除节点时,可以对数据执行哪些操作 Spark支持动态分配工人,有很多配置选项,请参阅 简短版本: Spark可以在任务队列已满时分配新的执行者 Spark将在执行器空闲一段时间后解除分配执行器 将为执行器分配启动时设置的内核/内存量,因此选择时要明智 缓存将受到动态分配的影响(大部分执行器被解除分配) 谢谢。我基本上对spark cassan

如何根据工作负载动态添加或删除spark cassandra群集资源(工作线程、执行器、内核、内存等)?我们可以在部署之前预测集群资源吗?从集群中缩小/删除节点时,可以对数据执行哪些操作

Spark支持动态分配工人,有很多配置选项,请参阅

简短版本:

  • Spark可以在任务队列已满时分配新的执行者
  • Spark将在执行器空闲一段时间后解除分配执行器
  • 将为执行器分配启动时设置的内核/内存量,因此选择时要明智
  • 缓存将受到动态分配的影响(大部分执行器被解除分配)

谢谢。我基本上对spark cassandra集群中通过保留数据局部性来添加/删除节点感兴趣。您能详细说明一下吗?部署前预测集群资源是什么意思?您正在运行什么类型的集群?火花单体、纱线、Mesos?要删除的节点类型是什么?火花执行器?Cassandra节点?簇是火花线。据我所知,4节点集群中的spark动态分配支持添加/删除执行器。但它是支持拉伸还是压缩集群大小。我们可以分别添加/删除spark worker节点和cassandra节点吗?如果是,那么如何做。到底是什么触发了spark Worker和cassandra节点的添加/删除?例如:我从4节点spark cassandra群集开始,每天都会有100GB的数据,而不是如何管理群集?我的意思是如何根据当前工作负载调整spark cassandra群集的大小。如果多个用户可以将内存密集型/cpu密集型spark作业部署到集群,那么我们可以在提交spark作业之前计算/预测作业执行时间或工作负载吗?