Python 安排pyspark笔记本_Python_Hadoop_Pyspark_Oozie_Jupyter Notebook

Python 安排pyspark笔记本

python hadoop pyspark jupyter-notebook

Python 安排pyspark笔记本,python,hadoop,pyspark,oozie,jupyter-notebook,Python,Hadoop,Pyspark,Oozie,Jupyter Notebook,我有一个ipython笔记本，在集群上包含一些PySpark代码。目前，我们正在使用oozie通过HUE在Hadoop上运行这些笔记本。安装感觉不太理想，我们想知道是否有其他选择我们首先将.ipynb文件转换为.py文件并将其移动到hdfs。除了这个文件之外，我们还创建了一个调用python文件的.sh文件。内容类似于： #!/bin/sh set -e [ -r /usr/local/virtualenv/pyspark/bin/activate ] && sour

我有一个ipython笔记本，在集群上包含一些PySpark代码。目前，我们正在使用oozie通过HUE在Hadoop上运行这些笔记本。安装感觉不太理想，我们想知道是否有其他选择

我们首先将

.ipynb

文件转换为

.py

文件并将其移动到hdfs。除了这个文件之外，我们还创建了一个调用python文件的

.sh

文件。内容类似于：

#!/bin/sh
set -e

[ -r     /usr/local/virtualenv/pyspark/bin/activate ] &&
source /usr/local/virtualenv/pyspark/bin/activate

spark-submit --master yarn-client --<setting> <setting_val>  <filename>.py

#/垃圾箱/垃圾箱
set-e
[-r/usr/local/virtualenv/pyspark/bin/activate]&&
source/usr/local/virtualenv/pyspark/bin/activate
spark提交--主纱线客户端--.py

接下来我们让Oozie指向这个

.sh

文件。这个流程感觉有点麻烦，Oozie并不能让我们很好地洞察出什么地方出了问题。我们非常喜欢Oozie知道如何根据您的配置并行或串行运行任务

有没有更好、更顺畅的方法来安排pyspark笔记本的日程

最近被添加到Oozie的master中，这将使运行PySpark作业更容易。不幸的是，它还没有发布

如果可以将Spark操作添加到工作流中，则应在标记中指定py文件。py文件和Spark版本的pyspark.zip和py4j--src.zip必须添加到workflow.xml旁边的lib/文件夹中，并且应该可以工作