在Pyspark中将json sturc值拆分为多列_Pyspark_Pyspark Sql

在Pyspark中将json sturc值拆分为多列

pyspark

在Pyspark中将json sturc值拆分为多列,pyspark,pyspark-sql,Pyspark,Pyspark Sql,我正在将一个json文件导入pyspark数据框架。我已经用下面的代码导入了json df = sqlContext.read.json("json_file.json").select("item", "attributes") 我想将属性从一列拆分为多列以下是json格式示例： {"item":"item-1","attributes":{"att-a":"att-a-15","att-b":"att-b-10","att-c":"att-c-7"}} {"item":"item-2"

我正在将一个json文件导入pyspark数据框架。我已经用下面的代码导入了json

df = sqlContext.read.json("json_file.json").select("item", "attributes")

我想将属性从一列拆分为多列

以下是json格式示例：

{"item":"item-1","attributes":{"att-a":"att-a-15","att-b":"att-b-10","att-c":"att-c-7"}}
{"item":"item-2","attributes":{"att-a":"att-a-15","att-b":"att-b-10","att-c":"att-c-7"}}

如果你想看到你的输出是这样的

+------+--------+--------+-------+
|  item|   att-a|   att-b|  att-c|
+------+--------+--------+-------+
|item-1|att-a-15|att-b-10|att-c-7|
|item-2|att-a-15|att-b-10|att-c-7|
+------+--------+--------+-------+

使用

因此，您可以在多列中看到所有属性。

共享此json文件的预期输出使用

选择（“attributes.*”）

您可以添加预期输出吗

from pyspark.sql import functions as f

df.select('item','attributes.*').show()