Apache spark spark流式写入数据到Hbase,python在saveAsNewAPIHadoopDataset上被阻止

Apache spark spark流式写入数据到Hbase,python在saveAsNewAPIHadoopDataset上被阻止,apache-spark,hbase,spark-streaming,Apache Spark,Hbase,Spark Streaming,我正在使用spark streaming python读取kafka并写入hbase,我发现在saveAsNewAPIHadoopDataset阶段的作业很容易被阻止。如下图所示: 你会发现这个阶段的持续时间是8小时。spark是通过Hbase api写入数据还是通过HDFS api直接写入数据?有点晚,但这里有一个类似的示例 要将RDD保存到hbase,请执行以下操作: 考虑一个包含单个行的RDD: {"id":3,"name":"Moony","color":"grey","descript

我正在使用spark streaming python读取kafka并写入hbase,我发现在saveAsNewAPIHadoopDataset阶段的作业很容易被阻止。如下图所示:
你会发现这个阶段的持续时间是8小时。spark是通过Hbase api写入数据还是通过HDFS api直接写入数据?

有点晚,但这里有一个类似的示例 要将RDD保存到hbase,请执行以下操作: 考虑一个包含单个行的RDD:

{"id":3,"name":"Moony","color":"grey","description":"Monochrome kitty"}
转换RDD 我们需要将RDD转换为具有以下内容的键、值对:

行键,[行键,列族,列名,值]

datamap = rdd.map(lambda x: (str(json.loads(x)["id"]),[str(json.loads(x)["id"]),"cfamily","cats_json",x]))
保存到HBase 我们可以使用本例中使用的RDD.saveAsNewAPIHadoopDataset函数:将RDD保存到HBase ?

您可以参考我的博客:了解工作示例的完整代码

datamap.saveAsNewAPIHadoopDataset(conf=conf,keyConverter=keyConv,valueConverter=valueConv)