Arrays 正在分析JSON字符串Pyspark dataframe列，该列在其中一列中具有数组字符串_Arrays_Json_Pyspark

Arrays 正在分析JSON字符串Pyspark dataframe列，该列在其中一列中具有数组字符串

arrays json pyspark

Arrays 正在分析JSON字符串Pyspark dataframe列，该列在其中一列中具有数组字符串,arrays,json,pyspark,Arrays,Json,Pyspark,我试图读取一个JSON文件，并将“jsonString”和包含数组的底层字段解析为pyspark数据帧下面是json文件的内容 [{"jsonString": "{\"uid\":\"value1\",\"adUsername\":\"value3\",\"courseCertifications\":[{\"uid\":\"value2\",\"courseType\":\"TRAINING\"},{\"uid\":\"TEST\",\"courseType\":\"TRAINING\"}]

我试图读取一个JSON文件，并将“jsonString”和包含数组的底层字段解析为pyspark数据帧

下面是json文件的内容

[{"jsonString": "{\"uid\":\"value1\",\"adUsername\":\"value3\",\"courseCertifications\":[{\"uid\":\"value2\",\"courseType\":\"TRAINING\"},{\"uid\":\"TEST\",\"courseType\":\"TRAINING\"}],\"modifiedBy\":\"value4\"}","transactionId": "value5", "tableName": "X"},
 {"jsonString": "{\"uid\":\"value11\",\"adUsername\":\"value13\",\"modifiedBy\":\"value14\"}","transactionId": "value15", "tableName": "X1"},
 {"jsonString": "{\"uid\":\"value21\",\"adUsername\":\"value23\",\"modifiedBy\":\"value24\"}","transactionId": "value25", "tableName": "X2"}]

我能够解析字符串“jsonString”的内容，并使用下面的逻辑选择所需的列

df = spark.read.json('path.json',multiLine=True)
df = df.withColumn('courseCertifications', explode(array(get_json_object(df['jsonString'],'$.courseCertifications'))))

现在我的最终目标是从“courseCertifications”解析字段“courseType”，并为每个实例创建一行

我使用下面的逻辑来获取“courseType”

我能够获得“courseType”的内容，但作为一个字符串，如下所示

[Row(new=u'["TRAINING","TRAINING"]')]

我的最终目标是创建一个包含列transactionId、jsonString.uid、jsonString.adUsername、jsonString.courseCertifications.uid、jsonString.courseCertifications.courseType的数据框架

df = df.withColumn('new',get_json_object(df.courseCertifications, '$[*].courseType'))

我需要保留所有行并为courseCertifications.uid/courseCertifications.courseType的每个数组实例创建多行

from_json

导入pyspark.sql.f函数
从pyspark.shell导入spark
从pyspark.sql.types导入ArrayType、StringType、StructType和StructField
df=spark.read.json（'your_path'，multiLine=True）
schema=StructType([
StructField（'uid'，StringType（）），
StructField（'adUsername'，StringType（）），
StructField（'modifiedBy'，StringType（）），
StructField（'courseCertifications'，ArrayType(
结构类型([
StructField（'uid'，StringType（）），
StructField（'courseType'，StringType（））
])
))
])
df=df\
.withColumn（'tmp'，f.from_json（df.jsonString，schema））\
.withColumn（'adUsername'，f.col（'tmp'）。adUsername）\
.withColumn（'uid'，f.col（'tmp'）.uid）\
.withColumn（'modifiedBy'，f.col（'tmp'）。modifiedBy）\
.带列（'tmp'，f.explode（f.col（'tmp'）。课程证书））\
.withColumn（'course_uid'，f.col（'tmp'）.uid）\
.withColumn（'course_type'，f.col（'tmp'）。courseType）\
.drop（'jsonString'，'tmp'）
df.show（）

+-------------+------+----------+----------+----------+-----------+
|transactionId|uid   |adUsername|modifiedBy|course_uid|course_type|
+-------------+------+----------+----------+----------+-----------+
|value5       |value1|value3    |value4    |value2    |TRAINING   |
|value5       |value1|value3    |value4    |TEST      |TRAINING   |
+-------------+------+----------+----------+----------+-----------+

json_schema=spark.read.json（df.rdd.map（lambda row:row.jsonString））.schema

df=df.withColumn（'jsonString'，from_json（df['jsonString'，json_schema））