Amazon web services AWS JupyterHub PypSpark笔记本使用熊猫模块_Amazon Web Services_Docker_Apache Spark_Pyspark_Jupyterhub

Amazon web services AWS JupyterHub PypSpark笔记本使用熊猫模块

amazon-web-services docker apache-spark pyspark

Amazon web services AWS JupyterHub PypSpark笔记本使用熊猫模块,amazon-web-services,docker,apache-spark,pyspark,jupyterhub,Amazon Web Services,Docker,Apache Spark,Pyspark,Jupyterhub,我有一个安装了JupyterHub的docker容器，运行在AWS集群上，如下所述。它有python3内核、pyspark3、PySpark、SparkR和Spark内核，容器中安装了conda和许多其他Python包，但没有Spark。问题是，当我运行pyspark或pyspark3内核时，它连接到安装在主节点（docker容器外部）上的spark，并且所有内部模块都不再可用于此笔记本（尽管它们对python内核可见，但在本例中spark不可见）所以问题是如何使安装在docker中的模块对p

我有一个安装了JupyterHub的docker容器，运行在AWS集群上，如下所述。它有python3内核、pyspark3、PySpark、SparkR和Spark内核，容器中安装了conda和许多其他Python包，但没有Spark。问题是，当我运行pyspark或pyspark3内核时，它连接到安装在主节点（docker容器外部）上的spark，并且所有内部模块都不再可用于此笔记本（尽管它们对python内核可见，但在本例中spark不可见）

所以问题是如何使安装在docker中的模块对pyspark/pyspark3笔记本可用和可见？我想我缺少了一些设置

我正在寻找一种方法，在一台笔记本电脑中使用docker内部安装的模块和外部安装的spark

到目前为止，我只能得到一个或另一个

我在这里和这里找到了答案的一半。秘诀是在计算单元中使用%%local magic，这样我们就可以访问本地安装的python模块（在docker容器中）。现在我只是不知道如何持久化在笔记本的“pyspark部分”中创建的数据帧，所以它在“local”部分中可用