Python 安排pyspark笔记本

Python 安排pyspark笔记本,python,hadoop,pyspark,oozie,jupyter-notebook,Python,Hadoop,Pyspark,Oozie,Jupyter Notebook,我有一个ipython笔记本,在集群上包含一些PySpark代码。目前,我们正在使用oozie通过HUE在Hadoop上运行这些笔记本。安装感觉不太理想,我们想知道是否有其他选择 我们首先将.ipynb文件转换为.py文件并将其移动到hdfs。除了这个文件之外,我们还创建了一个调用python文件的.sh文件。内容类似于: #!/bin/sh set -e [ -r /usr/local/virtualenv/pyspark/bin/activate ] && sour

我有一个ipython笔记本,在集群上包含一些PySpark代码。目前,我们正在使用oozie通过HUE在Hadoop上运行这些笔记本。安装感觉不太理想,我们想知道是否有其他选择

我们首先将
.ipynb
文件转换为
.py
文件并将其移动到hdfs。除了这个文件之外,我们还创建了一个调用python文件的
.sh
文件。内容类似于:

#!/bin/sh
set -e

[ -r     /usr/local/virtualenv/pyspark/bin/activate ] &&
source /usr/local/virtualenv/pyspark/bin/activate

spark-submit --master yarn-client --<setting> <setting_val>  <filename>.py
#/垃圾箱/垃圾箱
set-e
[-r/usr/local/virtualenv/pyspark/bin/activate]&&
source/usr/local/virtualenv/pyspark/bin/activate
spark提交--主纱线客户端--.py
接下来我们让Oozie指向这个
.sh
文件。这个流程感觉有点麻烦,Oozie并不能让我们很好地洞察出什么地方出了问题。我们非常喜欢Oozie知道如何根据您的配置并行或串行运行任务

有没有更好、更顺畅的方法来安排pyspark笔记本的日程

最近被添加到Oozie的master中,这将使运行PySpark作业更容易。不幸的是,它还没有发布

如果可以将Spark操作添加到工作流中,则应在标记中指定py文件。py文件和Spark版本的pyspark.zip和py4j--src.zip必须添加到workflow.xml旁边的lib/文件夹中,并且应该可以工作