使用pyspark将Json数据加载到hbase

使用pyspark将Json数据加载到hbase,pyspark,hbase,pyspark-sql,Pyspark,Hbase,Pyspark Sql,我想使用pyspark将数据加载到Hbase表中, 有人能帮助我们如何将json数据加载到Hbase中,就像rowkey一样,而所有其他数据都加载到一个列族中。 请在下面找到json { “ticid”:“1496”, “ticlocation”:“vizag”, “custnum”:“222”, “评论”:{ “评论”:[{ “评论号”:“1”, “描述”:“旅程”, “乘客专线”:{ “intele”:“09” }, “passengerloc”:{ “intele”:“s15” } },

我想使用pyspark将数据加载到Hbase表中, 有人能帮助我们如何将json数据加载到Hbase中,就像rowkey一样,而所有其他数据都加载到一个列族中。 请在下面找到json

{ “ticid”:“1496”, “ticlocation”:“vizag”, “custnum”:“222”, “评论”:{ “评论”:[{ “评论号”:“1”, “描述”:“旅程”, “乘客专线”:{ “intele”:“09” }, “passengerloc”:{ “intele”:“s15” } }, { “评论号”:“5”, “描述”:“食物”, “乘客专线”:{ “intele”:“09” }, “passengerloc”:{ “intele”:“s15” } }, { “评论号”:“12”, “描述”:“服务”, “乘客专线”:{ “intele”:“09” }, “passengerloc”:{ “intele”:“s15” } }] }, “轨道”:{ “铁路”:[{ “列车”:“AP1545”, “startcity”:“vizag”, “乘客电话”:“5” }, { “列车”:“AP1555”, “起始城市”:“HYD”, “乘客电话”:“15A” }] }
}

我假设您没有一行要加载,而是有数千行或数百万行要加载?我建议您将JSON数据转换为TSV(制表符分隔),这在Python中非常容易,并且使用HBase的导入TSV功能 另见

Spark不是HBase批量加载的好模式