Apache spark spark流式写入数据到Hbase，python在saveAsNewAPIHadoopDataset上被阻止_Apache Spark_Hbase_Spark Streaming

Apache spark spark流式写入数据到Hbase，python在saveAsNewAPIHadoopDataset上被阻止

apache-spark hbase

Apache spark spark流式写入数据到Hbase，python在saveAsNewAPIHadoopDataset上被阻止,apache-spark,hbase,spark-streaming,Apache Spark,Hbase,Spark Streaming,我正在使用spark streaming python读取kafka并写入hbase，我发现在saveAsNewAPIHadoopDataset阶段的作业很容易被阻止。如下图所示：你会发现这个阶段的持续时间是8小时。spark是通过Hbase api写入数据还是通过HDFS api直接写入数据？有点晚，但这里有一个类似的示例要将RDD保存到hbase，请执行以下操作：考虑一个包含单个行的RDD： {"id":3,"name":"Moony","color":"grey","descript

我正在使用spark streaming python读取kafka并写入hbase，我发现在saveAsNewAPIHadoopDataset阶段的作业很容易被阻止。如下图所示：

你会发现这个阶段的持续时间是8小时。spark是通过Hbase api写入数据还是通过HDFS api直接写入数据？

有点晚，但这里有一个类似的示例要将RDD保存到hbase，请执行以下操作：考虑一个包含单个行的RDD：

{"id":3,"name":"Moony","color":"grey","description":"Monochrome kitty"}

转换RDD 我们需要将RDD转换为具有以下内容的键、值对：

行键，[行键，列族，列名，值]

datamap = rdd.map(lambda x: (str(json.loads(x)["id"]),[str(json.loads(x)["id"]),"cfamily","cats_json",x]))

保存到HBase 我们可以使用本例中使用的RDD.saveAsNewAPIHadoopDataset函数：将RDD保存到HBase ?

您可以参考我的博客：了解工作示例的完整代码

datamap.saveAsNewAPIHadoopDataset(conf=conf,keyConverter=keyConv,valueConverter=valueConv)