使用scala spark将具有json值的列转换为数据帧_Json_Scala_Dataframe_Apache Spark_Normalization

使用scala spark将具有json值的列转换为数据帧

json scala dataframe apache-spark

使用scala spark将具有json值的列转换为数据帧,json,scala,dataframe,apache-spark,normalization,Json,Scala,Dataframe,Apache Spark,Normalization,我找到了几个有用的答案，但这些都是将son文件转换为df的，在我的例子中，我有一个df，其中包含son列，如下所示： s-时间戳：2019-10-10 内容：{“META”：{“testA”：“1”，“TABLENAME”：“some_table_name”}，“PINACOLADA”：{“sampleID”：“0”，“itemserted”：“2019-10-10”，“sampleType”：“BASE”，}” 我需要规范化内容列，我该怎么做。欢迎！有几种方法可以处理Spark DF列中的JS

我找到了几个有用的答案，但这些都是将son文件转换为df的，在我的例子中，我有一个df，其中包含son列，如下所示：

s-时间戳：2019-10-10

内容：{“META”：{“testA”：“1”，“TABLENAME”：“some_table_name”}，“PINACOLADA”：{“sampleID”：“0”，“itemserted”：“2019-10-10”，“sampleType”：“BASE”，}”

我需要规范化内容列，我该怎么做。

欢迎！有几种方法可以处理Spark DF列中的JSON字符串。您可以使用函数，如

get\u JSON\u object

从JSON提取特定字段，或

从\u JSON

将字段转换为具有给定模式的

StructType

。a另一种选择是使用

spark.read.json

来解析和创建一个独立于列内容的数据框架。看看我的解决方案，让我知道它是否有帮助。

规范化是什么意思？你需要将json列中的一些列提取到初始df中吗？可能类似于感谢，看起来我需要与解决方案帖子中的问题相同，我的数据可能不一致。我将使用您的方法进行实验。非常感谢。