Pyspark sparkmagic可以在ipython之外使用吗?

Pyspark sparkmagic可以在ipython之外使用吗?,pyspark,Pyspark,我正在使用带有sparkmagic扩展的jupyter笔记本,但我只能通过创建pyspark内核来访问spark群集。冲突在于我不能在pyspark内核中使用py3环境(一些已安装的python包),也不能在python3内核中使用spark上下文 我不知道如何在sparkmagic中引入包,所以我可以使用实际上由sparkmagic在py3中实现的pyspark吗?或者还有其他意见吗?内核-PySpark和默认的IPython都可以与PySpark上的python3解释器一起使用。它可以在~

我正在使用带有sparkmagic扩展的jupyter笔记本,但我只能通过创建
pyspark内核来访问spark群集。冲突在于我不能在pyspark内核中使用py3环境(一些已安装的python包),也不能在
python3内核中使用spark上下文


我不知道如何在sparkmagic中引入包,所以我可以使用实际上由sparkmagic在py3中实现的pyspark吗?或者还有其他意见吗?

内核-
PySpark
和默认的
IPython
都可以与PySpark上的python3解释器一起使用。它可以在
~/.sparkmagic/config.json
中指定。这是标准的,将通过
sparkmagic
传递到运行在spark主节点上的
livy
服务器

  "session_configs": {
    "conf": {
      "spark.pyspark.python":"python3"
     }
   }
spark.pyspark.pythonpython二进制可执行文件,用于驱动程序和执行程序中的pyspark

在这种情况下,
python3
作为spark集群中每个节点的
路径上的命令提供。您还可以将其安装到每个节点上的自定义目录中,并指定完整路径<代码>“spark.pyspark.python”:“/Users/hadoop/python3.8/bin/python”

所有spark配置选项都可以这样传递

导入tensorflow有两种方法:

  • 通过python3-m pip install tensorflow安装在所有火花机(主火花机和辅助火花机)上
  • 压缩、上传并通过sparkmagic通过
    spark.submit.pyFiles
    设置传递远程路径。接受
    s3
    hdfs
    或主节点文件系统上的路径(不是计算机上的路径)

请参阅about
--py文件

PySpark上的内核-
PySpark
和默认的
IPython
都可以与PySpark上的python3解释器一起使用。它可以在
~/.sparkmagic/config.json
中指定。这是标准的,将通过
sparkmagic
传递到运行在spark主节点上的
livy
服务器

  "session_configs": {
    "conf": {
      "spark.pyspark.python":"python3"
     }
   }
spark.pyspark.pythonpython二进制可执行文件,用于驱动程序和执行程序中的pyspark

在这种情况下,
python3
作为spark集群中每个节点的
路径上的命令提供。您还可以将其安装到每个节点上的自定义目录中,并指定完整路径<代码>“spark.pyspark.python”:“/Users/hadoop/python3.8/bin/python”

所有spark配置选项都可以这样传递

导入tensorflow有两种方法:

  • 通过python3-m pip install tensorflow安装在所有火花机(主火花机和辅助火花机)上
  • 压缩、上传并通过sparkmagic通过
    spark.submit.pyFiles
    设置传递远程路径。接受
    s3
    hdfs
    或主节点文件系统上的路径(不是计算机上的路径)

查看关于
--py文件的内容

我认为您是在混合应用程序,其中代码实际上与sparkmagic和spark一起运行。在PySpark内核中,每个单元通过
livy
api自动提交到spark群集。有一个
%%本地
魔术可以在您的机器上运行代码,例如用于可视化结果或结果分析。远程提交的代码,无法使用本地环境。它无法使用您的计算机上安装的软件包。我在回答中写了一些提示如何向集群节点提供tensorflow由
sparkmagic
提供的两个内核之间的区别是,
PySpark
默认情况下将单元格提交给spark集群,
Ipython
仅将带有
%%spark
魔力第一行的单元格提交给远程集群。检查示例,我认为您正在混合应用程序,其中代码实际上使用sparkmagic和spark运行。在PySpark内核中,每个单元通过
livy
api自动提交到spark群集。有一个
%%本地
魔术可以在您的机器上运行代码,例如用于可视化结果或结果分析。远程提交的代码,无法使用本地环境。它无法使用您的计算机上安装的软件包。我在回答中写了一些提示如何向集群节点提供tensorflow由
sparkmagic
提供的两个内核之间的区别是,
PySpark
默认情况下将单元格提交给spark集群,
Ipython
仅将带有
%%spark
魔力第一行的单元格提交给远程集群。检查对您的解释非常有帮助的示例!我可以使用IPython内核,它可以在内存中存储数据帧,并在本地tensorflow中使用它。如果这样做行得通,我的需求就会得到满足。这对你的解释很有帮助!我可以使用IPython内核,它可以在内存中存储数据帧,并在本地tensorflow中使用它。如果这样做行得通,我的需求就会得到满足。