Amazon web services Spark内核笔记本之间的群集共享

Amazon web services Spark内核笔记本之间的群集共享,amazon-web-services,apache-spark,jupyter-notebook,amazon-emr,amazon-sagemaker,Amazon Web Services,Apache Spark,Jupyter Notebook,Amazon Emr,Amazon Sagemaker,我希望从概念上理解几个运行在Spark内核(如SparkMagic)上的Jupyter笔记本如何共享一个工作节点集群 如果用户A将一个大型RDD(无论是在磁盘上还是在内存中)持久化或缓存在一个单元中,然后周末外出,但不停止他/她的笔记本,这是否会降低其他用户在用户A的笔记本运行时运行其作业的能力 也就是说,共享集群的所有Spark笔记本电脑将能够同时提交作业(不必按顺序运行),但资源将被分配,对吗 这是一个一般性的问题,但对我们来说,我们在美国地区的AWS Sagemaker和EMR环境上运行,

我希望从概念上理解几个运行在Spark内核(如SparkMagic)上的Jupyter笔记本如何共享一个工作节点集群

如果用户A将一个大型RDD(无论是在磁盘上还是在内存中)持久化或缓存在一个单元中,然后周末外出,但不停止他/她的笔记本,这是否会降低其他用户在用户A的笔记本运行时运行其作业的能力

也就是说,共享集群的所有Spark笔记本电脑将能够同时提交作业(不必按顺序运行),但资源将被分配,对吗


这是一个一般性的问题,但对我们来说,我们在美国地区的AWS Sagemaker和EMR环境上运行,以防产生影响。

由单个EMR集群支持的Sagemaker笔记本电脑通过Livy连接到EMR集群。EMR主节点上的Livy启动Spark应用程序,您可以在纱线资源管理器中找到该应用程序

每个笔记本将打开一个单独的会话,然后由资源管理器决定哪个应用程序可以运行,这取决于集群的资源和首先提交的作业

如果要控制分配给每个用户/组的资源,可以使用不同的队列配置纱线调度程序

通常,Livy会在特定超时后杀死未使用的会话,因此会话不能永远运行