在pyspark中使用KuduContext_Pyspark_Apache Kudu

在pyspark中使用KuduContext

pyspark

在pyspark中使用KuduContext,pyspark,apache-kudu,Pyspark,Apache Kudu,我想用kudu和pyspark。虽然我可以将其用于： sc.read.format('org.apache.kudu.spark.kudu').option('kudu.master',"hdp1:7051").option('kudu.table',"impala::test.z_kudu_tab").load() 我找不到导入KuduContext的方法。我正在使用jupyter笔记本，并使用以下工具导入它： os.environ["PYSPARK_SUBMIT_ARGS"] = "

我想用kudu和pyspark。虽然我可以将其用于：

sc.read.format('org.apache.kudu.spark.kudu').option('kudu.master',"hdp1:7051").option('kudu.table',"impala::test.z_kudu_tab").load()

我找不到导入KuduContext的方法。我正在使用jupyter笔记本，并使用以下工具导入它：

os.environ["PYSPARK_SUBMIT_ARGS"] = "--driver-memory 2g --packages com.ibm.spss.hive.serde2.xml:hivexmlserde:1.0.5.3 --packages org.apache.kudu:kudu-spark2_2.11:1.7.0 pyspark-shell"

我的非工作代码：

kudu_Context = KuduContext("es2-hdp1:7051", sc)

有错误的模具：

NameError: name 'KuduContext' is not defined

AttributeError: 'SparkContext' object has no attribute '_get_object_id'

我也试过：

kudu_context = sc._jvm.org.apache.kudu.spark.kudu.KuduContext("hdp1:7051", sc.sparkContext)

因错误而死亡：

NameError: name 'KuduContext' is not defined

AttributeError: 'SparkContext' object has no attribute '_get_object_id'

@OP-你能解决这个问题吗？对不起，我在电话上，没有链接。当时，我发现了一个关于为pyspark开发kudu API的开放Jira，所以答案是目前不可能（除非使用python中的“怪异”java包装器-Jira票证中有一个代码IIRC的示例）我猜这就是您所指的链接-使用怪异的java包装器，我能够创建一个新的库都上下文。但是，他还面临着许多其他奇怪的错误，就是那个。试着用你的错误发布一个新问题，也许那时你会比我幸运，谁知道呢：）