Apache spark spark cassandra集群中的自动扩展_Apache Spark_Cassandra_Autoscaling

Apache spark spark cassandra集群中的自动扩展

apache-spark cassandra

Apache spark spark cassandra集群中的自动扩展,apache-spark,cassandra,autoscaling,Apache Spark,Cassandra,Autoscaling,如何根据工作负载动态添加或删除spark cassandra群集资源（工作线程、执行器、内核、内存等）？我们可以在部署之前预测集群资源吗？从集群中缩小/删除节点时，可以对数据执行哪些操作 Spark支持动态分配工人，有很多配置选项，请参阅简短版本： Spark可以在任务队列已满时分配新的执行者 Spark将在执行器空闲一段时间后解除分配执行器将为执行器分配启动时设置的内核/内存量，因此选择时要明智缓存将受到动态分配的影响（大部分执行器被解除分配）谢谢。我基本上对spark cassan

如何根据工作负载动态添加或删除spark cassandra群集资源（工作线程、执行器、内核、内存等）？我们可以在部署之前预测集群资源吗？从集群中缩小/删除节点时，可以对数据执行哪些操作

Spark支持动态分配工人，有很多配置选项，请参阅

简短版本：

Spark可以在任务队列已满时分配新的执行者
Spark将在执行器空闲一段时间后解除分配执行器
将为执行器分配启动时设置的内核/内存量，因此选择时要明智
缓存将受到动态分配的影响（大部分执行器被解除分配）

谢谢。我基本上对spark cassandra集群中通过保留数据局部性来添加/删除节点感兴趣。您能详细说明一下吗？部署前预测集群资源是什么意思？您正在运行什么类型的集群？火花单体、纱线、Mesos？要删除的节点类型是什么？火花执行器？Cassandra节点？簇是火花线。据我所知，4节点集群中的spark动态分配支持添加/删除执行器。但它是支持拉伸还是压缩集群大小。我们可以分别添加/删除spark worker节点和cassandra节点吗？如果是，那么如何做。到底是什么触发了spark Worker和cassandra节点的添加/删除？例如：我从4节点spark cassandra群集开始，每天都会有100GB的数据，而不是如何管理群集？我的意思是如何根据当前工作负载调整spark cassandra群集的大小。如果多个用户可以将内存密集型/cpu密集型spark作业部署到集群，那么我们可以在提交spark作业之前计算/预测作业执行时间或工作负载吗？