Pyspark 使用Python笔记本在Databricks中创建波光粼粼的水云

Pyspark 使用Python笔记本在Databricks中创建波光粼粼的水云,pyspark,h2o,databricks,sparkling-water,Pyspark,H2o,Databricks,Sparkling Water,我正在尝试使用Databricks在Spark内启动一个闪闪发光的水云。我已经将H2O库(3.16.0.2)、PySparkling(PySparkling 0.4.6)和起泡水罐(Sparkling-Water-assembly_2.11-2.1.10-all.jar)连接到我正在运行的集群(Spark 2.1,自动更新Scala 1.1.1) 我已成功导入以下所需的库: from pysparkling import * import h2o 但是,当我尝试使用以下命令初始化波光粼粼的水云

我正在尝试使用Databricks在Spark内启动一个闪闪发光的水云。我已经将H2O库(3.16.0.2)、PySparkling(PySparkling 0.4.6)和起泡水罐(Sparkling-Water-assembly_2.11-2.1.10-all.jar)连接到我正在运行的集群(Spark 2.1,自动更新Scala 1.1.1)

我已成功导入以下所需的库:

from pysparkling import *
import h2o
但是,当我尝试使用以下命令初始化波光粼粼的水云时:

hc=H2OContext.getOrCreate(spark)

H2OContext.getOrCreate(sc)

我得到了同样的错误:

name错误:未定义名称“H2OContext”

NameError                                 Traceback (most recent call last)
<command-4043510449425708> in <module>()
----> 1 H2OContext.getOrCreate(sc)

NameError: name 'H2OContext' is not defined
但是这个管道可能并不总是使用Databricks,所以它需要全部在PySpark中,并且Databricks没有相应的PySpark示例


提前谢谢

对于pysparkling,您需要首先为
h2o_pysparkling_2.1
创建一个PyPi库,因为您使用的是Spark 2.1集群。您附加的库,
pysparkling
有所不同。此外,您不需要附加所有其他库,因为
h2o_pysparkling_2.1
包将已经导入其他必要的库

完成此操作后,您可以运行:

from pysparkling import *

h2oConf = H2OConf(spark)
h2oConf.set("spark.ui.enabled", False)

h2oContext = H2OContext.getOrCreate(spark, h2oConf)

对于pysparkling,您需要首先为
h2o_pysparkling_2.1
创建一个PyPi库,因为您使用的是Spark 2.1集群。您附加的库,
pysparkling
有所不同。此外,您不需要附加所有其他库,因为
h2o_pysparkling_2.1
包将已经导入其他必要的库

完成此操作后,您可以运行:

from pysparkling import *

h2oConf = H2OConf(spark)
h2oConf.set("spark.ui.enabled", False)

h2oContext = H2OContext.getOrCreate(spark, h2oConf)

我得到:从pysparkling导入*[警告]H2O需要0.3.8或更高版本的colorama模块。您的版本是0.3.7。您可以升级到从命令行$pip2 install运行的模块的最新版本——upgrade colorama h2oContext=h2oContext.getOrCreate(spark)py4j.Py4JEException:Method getOrCreate([class org.apache.spark.sql.SparkSession,class org.apache.spark.h2o.H2OConf])不存在……我更新了代码示例。请首先分离所有以前的库,重新启动集群以清除依赖项,附加h2o_Pybarkling_2.1,运行上面的代码。我刚刚在Spark 2.1集群上验证了这一点。我得到:从PySparking导入*[警告]H2O需要0.3.8或更高版本的colorama模块。您的版本是0.3.7。您可以升级到从命令行$pip2 install运行的模块的最新版本——upgrade colorama h2oContext=h2oContext.getOrCreate(spark)py4j.Py4JEException:Method getOrCreate([class org.apache.spark.sql.SparkSession,class org.apache.spark.h2o.H2OConf])不存在……我更新了代码示例。请首先分离所有以前的库,重新启动集群以清除依赖项,附加h2o_Pybarkling_2.1,运行上面的代码。我刚刚在Spark 2.1集群上验证了这一点。