Pyspark sparkmagic可以在ipython之外使用吗?
我正在使用带有sparkmagic扩展的jupyter笔记本,但我只能通过创建Pyspark sparkmagic可以在ipython之外使用吗?,pyspark,Pyspark,我正在使用带有sparkmagic扩展的jupyter笔记本,但我只能通过创建pyspark内核来访问spark群集。冲突在于我不能在pyspark内核中使用py3环境(一些已安装的python包),也不能在python3内核中使用spark上下文 我不知道如何在sparkmagic中引入包,所以我可以使用实际上由sparkmagic在py3中实现的pyspark吗?或者还有其他意见吗?内核-PySpark和默认的IPython都可以与PySpark上的python3解释器一起使用。它可以在~
pyspark内核来访问spark群集。冲突在于我不能在pyspark内核中使用py3环境(一些已安装的python包),也不能在python3内核中使用spark上下文
我不知道如何在sparkmagic中引入包,所以我可以使用实际上由sparkmagic在py3中实现的pyspark吗?或者还有其他意见吗?内核-PySpark
和默认的IPython
都可以与PySpark上的python3解释器一起使用。它可以在~/.sparkmagic/config.json
中指定。这是标准的,将通过sparkmagic
传递到运行在spark主节点上的livy
服务器
"session_configs": {
"conf": {
"spark.pyspark.python":"python3"
}
}
spark.pyspark.pythonpython二进制可执行文件,用于驱动程序和执行程序中的pyspark
在这种情况下,python3
作为spark集群中每个节点的路径上的命令提供。您还可以将其安装到每个节点上的自定义目录中,并指定完整路径<代码>“spark.pyspark.python”:“/Users/hadoop/python3.8/bin/python”
所有spark配置选项都可以这样传递
导入tensorflow有两种方法:
- 通过python3-m pip install tensorflow安装在所有火花机(主火花机和辅助火花机)上
- 压缩、上传并通过sparkmagic通过
spark.submit.pyFiles
设置传递远程路径。接受s3
、hdfs
或主节点文件系统上的路径(不是计算机上的路径)
请参阅about--py文件
PySpark上的内核-PySpark
和默认的IPython
都可以与PySpark上的python3解释器一起使用。它可以在~/.sparkmagic/config.json
中指定。这是标准的,将通过sparkmagic
传递到运行在spark主节点上的livy
服务器
"session_configs": {
"conf": {
"spark.pyspark.python":"python3"
}
}
spark.pyspark.pythonpython二进制可执行文件,用于驱动程序和执行程序中的pyspark
在这种情况下,python3
作为spark集群中每个节点的路径上的命令提供。您还可以将其安装到每个节点上的自定义目录中,并指定完整路径<代码>“spark.pyspark.python”:“/Users/hadoop/python3.8/bin/python”
所有spark配置选项都可以这样传递
导入tensorflow有两种方法:
- 通过python3-m pip install tensorflow安装在所有火花机(主火花机和辅助火花机)上
- 压缩、上传并通过sparkmagic通过
spark.submit.pyFiles
设置传递远程路径。接受s3
、hdfs
或主节点文件系统上的路径(不是计算机上的路径)
查看关于--py文件的内容
我认为您是在混合应用程序,其中代码实际上与sparkmagic和spark一起运行。在PySpark内核中,每个单元通过livy
api自动提交到spark群集。有一个%%本地
魔术可以在您的机器上运行代码,例如用于可视化结果或结果分析。远程提交的代码,无法使用本地环境。它无法使用您的计算机上安装的软件包。我在回答中写了一些提示如何向集群节点提供tensorflow由sparkmagic
提供的两个内核之间的区别是,PySpark
默认情况下将单元格提交给spark集群,Ipython
仅将带有%%spark
魔力第一行的单元格提交给远程集群。检查示例,我认为您正在混合应用程序,其中代码实际上使用sparkmagic和spark运行。在PySpark内核中,每个单元通过livy
api自动提交到spark群集。有一个%%本地
魔术可以在您的机器上运行代码,例如用于可视化结果或结果分析。远程提交的代码,无法使用本地环境。它无法使用您的计算机上安装的软件包。我在回答中写了一些提示如何向集群节点提供tensorflow由sparkmagic
提供的两个内核之间的区别是,PySpark
默认情况下将单元格提交给spark集群,Ipython
仅将带有%%spark
魔力第一行的单元格提交给远程集群。检查对您的解释非常有帮助的示例!我可以使用IPython内核,它可以在内存中存储数据帧,并在本地tensorflow中使用它。如果这样做行得通,我的需求就会得到满足。这对你的解释很有帮助!我可以使用IPython内核,它可以在内存中存储数据帧,并在本地tensorflow中使用它。如果这样做行得通,我的需求就会得到满足。