在spark中读取一个json文件，开头带有垃圾字符_Json_Scala_Apache Spark_Dataframe

在spark中读取一个json文件，开头带有垃圾字符

json scala apache-spark dataframe

在spark中读取一个json文件，开头带有垃圾字符,json,scala,apache-spark,dataframe,Json,Scala,Apache Spark,Dataframe,我有一个包含如下数据的文件： <1>2019-03-20T20:59:59Z daily_report.txt[102852]: { "ts": "1553115599", "data": {"field1": "value11", "field21": "value12"} } <2>2019-03-20T20:59:59Z daily_report.txt[102852]: { "ts": "1553115599", "data": {"field1": "value

我有一个包含如下数据的文件：

<1>2019-03-20T20:59:59Z daily_report.txt[102852]: { "ts": "1553115599", "data": {"field1": "value11", "field21": "value12"} }
<2>2019-03-20T20:59:59Z daily_report.txt[102852]: { "ts": "1553115599", "data": {"field1": "value21", "field2": "value22"} }
<3>2019-03-20T20:59:59Z daily_report.txt[102852]: { "ts": "1553115599", "data": {"field1": "value31", "field2": "value32"} }

2019-03-20T20:59:59Z日报[102852]：{“ts”：“1553115599”，“数据”：{“field1”：“value11”，“field21”：“value12”}
2019-03-20T20:59:59Z daily_report.txt[102852]：{“ts”：“1553115599”，“数据”：{“field1”：“value21”，“field2”：“value22”}
2019-03-20T20:59:59Z daily_report.txt[102852]：{“ts”：“1553115599”，“数据”：{“field1”：“value31”，“field2”：“value32”}

通常在spark中，我只能执行

spark.read.json（“inputs.json”）

，但由于每行前面都有垃圾，所以我不能。是否有一种方法可以将前面的部分切掉，或者更好——将垃圾作为列包含在我的数据框架中？

您必须将数据作为

数据集[String]

读取，然后自己解析这些列。完成后，为

json

数据创建一个模式，并使用sparks内置的

from_json（）

函数：

import org.apache.spark.sql.types._

val ds = spark.createDataset(Seq(
    "<1>2019-03-20T20:59:59Z daily_report.txt[102852]: { \"ts\": \"1553115599\", \"data\": {\"field1\": \"value11\", \"field2\": \"value12\"} }",
    "<2>2019-03-20T20:59:59Z daily_report.txt[102852]: { \"ts\": \"1553115599\", \"data\": {\"field1\": \"value21\", \"field2\": \"value22\"} }",
    "<3>2019-03-20T20:59:59Z daily_report.txt[102852]: { \"ts\": \"1553115599\", \"data\": {\"field1\": \"value31\", \"field2\": \"value32\"} }"
))

//val ds = spark.read.text("inputs.txt").as[String]
val schema = StructType(List(StructField("ts", StringType), StructField("data", StructType(List(StructField("field1", StringType), StructField("field2", StringType))))))

val df = ds.map(r => {
    val j = r.indexOf("{")-1
    (r.substring(0, j), r.substring(j, r.length))
}).toDF("garbage", "json")

df.withColumn("data", from_json($"json", schema)).select("garbage", "data").show(false)

使用模式：

root
 |-- garbage: string (nullable = true)
 |-- data: struct (nullable = true)
 |    |-- ts: string (nullable = true)
 |    |-- data: struct (nullable = true)
 |    |    |-- field1: string (nullable = true)
 |    |    |-- field2: string (nullable = true)

如果您确实不需要

垃圾数据

数据，请使用您已经习惯的

spark.read.json（）

将

数据集[String]

传递给它。这不需要定义模式，因为它将被推断为：

val data = spark.read.json(df.select("json").as[String])

您必须将数据作为

数据集[String]

读取，然后自己解析列。完成后，为

json