Pyspark can';找不到模块';图形框架';——朱皮特

Pyspark can';找不到模块';图形框架';——朱皮特,pyspark,jupyter-notebook,jupyter,graphframes,Pyspark,Jupyter Notebook,Jupyter,Graphframes,我正在尝试按照我已经阅读过的一些说明安装graphframes包 我的第一次尝试是在命令行中执行此操作: pyspark--packages graphframes:graphframes:0.5.0-spark2.1-s_2.11 这是完美的工作和下载成功地完成了在机器上 但是,当我尝试在Jupyter笔记本中导入包时,它会显示错误: can't find module 'graphframes' 我的第一次尝试是将包文件夹/graphframes复制到/site包,但我无法使用简单的c

我正在尝试按照我已经阅读过的一些说明安装graphframes包

我的第一次尝试是在命令行中执行此操作:

 pyspark--packages graphframes:graphframes:0.5.0-spark2.1-s_2.11
这是完美的工作和下载成功地完成了在机器上

但是,当我尝试在Jupyter笔记本中导入包时,它会显示错误:

can't find module 'graphframes'
我的第一次尝试是将包文件夹/graphframes复制到/site包,但我无法使用简单的cp命令完成

我是一个全新的使用spark的人,我确信我缺少了一些配置


你能帮帮我吗?

这对我很有用

提取
graphframes xxx xxx.jar文件的内容。你应该得到像这样的东西

graphframes
 | -- examples
       |-- ...
 | -- __init__.py
 | -- ...
将整个文件夹(不仅仅是内容)压缩,并根据需要命名。我们将其命名为
graphframes.zip

然后,使用

pyspark --py-files graphframes.zip \
    --packages graphframes:graphframes:0.5.0-spark2.1-s_2.11
你可能需要这样做

sc.addPyFile('graphframes.zip')
以前

import graphframes

最简单的方法是使用pyspark启动jupyter,graphframes是从pyspark启动jupyter

只需打开终端并设置两个环境变量,然后使用graphframes软件包启动
pyspark

export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS=notebook
pyspark --packages graphframes:graphframes:0.6.0-spark2.3-s_2.11

这样做的好处还在于,如果以后想通过
spark submit
运行代码,可以使用相同的start命令