使用pyspark将Json数据加载到hbase_Pyspark_Hbase_Pyspark Sql

使用pyspark将Json数据加载到hbase

pyspark hbase

使用pyspark将Json数据加载到hbase,pyspark,hbase,pyspark-sql,Pyspark,Hbase,Pyspark Sql,我想使用pyspark将数据加载到Hbase表中，有人能帮助我们如何将json数据加载到Hbase中，就像rowkey一样，而所有其他数据都加载到一个列族中。请在下面找到json { “ticid”：“1496”， “ticlocation”：“vizag”， “custnum”：“222”， “评论”：{ “评论”：[{ “评论号”：“1”， “描述”：“旅程”， “乘客专线”：{ “intele”：“09” }, “passengerloc”：{ “intele”：“s15” } },

我想使用pyspark将数据加载到Hbase表中，有人能帮助我们如何将json数据加载到Hbase中，就像rowkey一样，而所有其他数据都加载到一个列族中。请在下面找到json

{ “ticid”：“1496”， “ticlocation”：“vizag”， “custnum”：“222”， “评论”：{ “评论”：[{ “评论号”：“1”， “描述”：“旅程”， “乘客专线”：{ “intele”：“09” }, “passengerloc”：{ “intele”：“s15” } }, { “评论号”：“5”， “描述”：“食物”， “乘客专线”：{ “intele”：“09” }, “passengerloc”：{ “intele”：“s15” } }, { “评论号”：“12”， “描述”：“服务”， “乘客专线”：{ “intele”：“09” }, “passengerloc”：{ “intele”：“s15” } }] }, “轨道”：{ “铁路”：[{ “列车”：“AP1545”， “startcity”：“vizag”， “乘客电话”：“5” }, { “列车”：“AP1555”， “起始城市”：“HYD”， “乘客电话”：“15A” }] }

}

我假设您没有一行要加载，而是有数千行或数百万行要加载？我建议您将JSON数据转换为TSV（制表符分隔），这在Python中非常容易，并且使用HBase的导入TSV功能另见

Spark不是HBase批量加载的好模式