使用scala spark将具有json值的列转换为数据帧
我找到了几个有用的答案,但这些都是将son文件转换为df的,在我的例子中,我有一个df,其中包含son列,如下所示: s-时间戳:2019-10-10 内容:{“META”:{“testA”:“1”,“TABLENAME”:“some_table_name”},“PINACOLADA”:{“sampleID”:“0”,“itemserted”:“2019-10-10”,“sampleType”:“BASE”,}”使用scala spark将具有json值的列转换为数据帧,json,scala,dataframe,apache-spark,normalization,Json,Scala,Dataframe,Apache Spark,Normalization,我找到了几个有用的答案,但这些都是将son文件转换为df的,在我的例子中,我有一个df,其中包含son列,如下所示: s-时间戳:2019-10-10 内容:{“META”:{“testA”:“1”,“TABLENAME”:“some_table_name”},“PINACOLADA”:{“sampleID”:“0”,“itemserted”:“2019-10-10”,“sampleType”:“BASE”,}” 我需要规范化内容列,我该怎么做。欢迎!有几种方法可以处理Spark DF列中的JS
我需要规范化内容列,我该怎么做。欢迎!有几种方法可以处理Spark DF列中的JSON字符串。您可以使用函数,如
get\u JSON\u object
从JSON提取特定字段,或从\u JSON
将字段转换为具有给定模式的StructType
。a另一种选择是使用spark.read.json
来解析和创建一个独立于列内容的数据框架。看看我的解决方案,让我知道它是否有帮助。规范化是什么意思?你需要将json列中的一些列提取到初始df中吗?可能类似于感谢,看起来我需要与解决方案帖子中的问题相同,我的数据可能不一致。我将使用您的方法进行实验。非常感谢。