运行火花&x2B；Scala+；Dataproc上的Jupyter_Scala_Apache Spark_Jupyter Notebook_Google Cloud Dataproc_Apache Toree

运行火花&x2B；Scala+；Dataproc上的Jupyter

scala apache-spark jupyter-notebook

运行火花&x2B；Scala+；Dataproc上的Jupyter,scala,apache-spark,jupyter-notebook,google-cloud-dataproc,apache-toree,Scala,Apache Spark,Jupyter Notebook,Google Cloud Dataproc,Apache Toree,我还没有设法让Spark、Scala和Jupyter合作。有人有简单的食谱吗？您使用了每个组件的哪个版本？Spark是Dataproc群集的标准配置下面是一个gcloud命令，可用于创建Dataproc群集（名为“dplab”），其中包括在端口8124上侦听的Jupyter： $ gcloud dataproc clusters create dplab \ --initialization-actions \ gs://dataproc-initialization-action

我还没有设法让Spark、Scala和Jupyter合作。有人有简单的食谱吗？您使用了每个组件的哪个版本？

Spark是Dataproc群集的标准配置

下面是一个gcloud命令，可用于创建Dataproc群集（名为“dplab”），其中包括在端口8124上侦听的Jupyter：

$ gcloud dataproc clusters create dplab \
 --initialization-actions \
     gs://dataproc-initialization-actions/jupyter/jupyter.sh \
 --metadata "JUPYTER_PORT=8124" \
 --zone=us-central1-c

然后运行此命令，将主机向前移植到群集主机：

$ gcloud compute ssh dplab-m \
 --ssh-flag="-Llocalhost:8124:localhost:8124" --zone=us-central1-c

在浏览器中打开localhost:8124，您将看到Jupyter页面。

与DataProc的1.0映像兼容，该映像当前包括Spark 1.6.1。我曾尝试将其用于预览图像，其中包括Spark 2.0预览，但未成功。要在DataProc主机上安装Toree，可以运行

sudo apt install python3-pip
pip3 install --user jupyter
export SPARK_HOME=/usr/lib/spark
pip3 install --pre --user toree
export PATH=$HOME/.local/bin:$PATH
jupyter toree install --user --spark_home=$SPARK_HOME

相反，你可以使用齐柏林飞艇，这是一个很好的选择，开箱即用。但是，哇，笔记本电脑有5千兆字节？他们在做什么？在有人向我展示如何让Jupyter使用Scala和Spark之前，我会一直讨论这个问题。同时，我会使用齐柏林飞艇。感谢您的建议。它支持许多捆绑在同一二进制文件中的解释器，因为齐柏林飞艇二进制文件非常大。但他们将在0.6版本中删除此解释器，并提供外部实用程序来安装用户需要创建的解释器。斯卡拉在哪里？很有趣。他们的版本文档暗示它不应该兼容：.1.6.1适合“1.5.1+”，这就是他们所说的。至少它似乎起作用了；我刚开始测试。