运行火花&x2B;Scala+;Dataproc上的Jupyter

运行火花&x2B;Scala+;Dataproc上的Jupyter,scala,apache-spark,jupyter-notebook,google-cloud-dataproc,apache-toree,Scala,Apache Spark,Jupyter Notebook,Google Cloud Dataproc,Apache Toree,我还没有设法让Spark、Scala和Jupyter合作。有人有简单的食谱吗?您使用了每个组件的哪个版本?Spark是Dataproc群集的标准配置 下面是一个gcloud命令,可用于创建Dataproc群集(名为“dplab”),其中包括在端口8124上侦听的Jupyter: $ gcloud dataproc clusters create dplab \ --initialization-actions \ gs://dataproc-initialization-action

我还没有设法让Spark、Scala和Jupyter合作。有人有简单的食谱吗?您使用了每个组件的哪个版本?

Spark是Dataproc群集的标准配置

下面是一个gcloud命令,可用于创建Dataproc群集(名为“dplab”),其中包括在端口8124上侦听的Jupyter:

$ gcloud dataproc clusters create dplab \
 --initialization-actions \
     gs://dataproc-initialization-actions/jupyter/jupyter.sh \
 --metadata "JUPYTER_PORT=8124" \
 --zone=us-central1-c
然后运行此命令,将主机向前移植到群集主机:

$ gcloud compute ssh dplab-m \
 --ssh-flag="-Llocalhost:8124:localhost:8124" --zone=us-central1-c
在浏览器中打开localhost:8124,您将看到Jupyter页面。

与DataProc的1.0映像兼容,该映像当前包括Spark 1.6.1。我曾尝试将其用于预览图像,其中包括Spark 2.0预览,但未成功。要在DataProc主机上安装Toree,可以运行

sudo apt install python3-pip
pip3 install --user jupyter
export SPARK_HOME=/usr/lib/spark
pip3 install --pre --user toree
export PATH=$HOME/.local/bin:$PATH
jupyter toree install --user --spark_home=$SPARK_HOME

相反,你可以使用齐柏林飞艇,这是一个很好的选择,开箱即用。但是,哇,笔记本电脑有5千兆字节?他们在做什么?在有人向我展示如何让Jupyter使用Scala和Spark之前,我会一直讨论这个问题。同时,我会使用齐柏林飞艇。感谢您的建议。它支持许多捆绑在同一二进制文件中的解释器,因为齐柏林飞艇二进制文件非常大。但他们将在0.6版本中删除此解释器,并提供外部实用程序来安装用户需要创建的解释器。斯卡拉在哪里?很有趣。他们的版本文档暗示它不应该兼容:.1.6.1适合“1.5.1+”,这就是他们所说的。至少它似乎起作用了;我刚开始测试。