Apache spark 多行选项在使用Java的Spark 3.0.0-preview2中不起作用
我在使用JSON文件的Apache spark 多行选项在使用Java的Spark 3.0.0-preview2中不起作用,apache-spark,apache-spark-sql,Apache Spark,Apache Spark Sql,我在使用JSON文件的多行选项时收到损坏的记录输出。 以下是我导入文件的方式: Dataset<Row> df2 = sparksession.read().option("multiLine", "true").json("C:/MyProject/Files/multiline.json"); Dataset<Row> df2 = sparksession.read().option("multi
多行
选项时收到损坏的记录输出。
以下是我导入文件的方式:
Dataset<Row> df2 = sparksession.read().option("multiLine", "true").json("C:/MyProject/Files/multiline.json");
Dataset<Row> df2 = sparksession.read().option("multiLine", true).json("C:/MyProject/Files/multiline.json");
尝试导入较低版本的Spark。这个问题可能是
3.0.0-preview2
版本的一个bug。
[{
"id": "1233",
"Key": "123456",
"geo_location": {
"type": "ABC",
"coordinates": [
-45.00,
36.00
]
},
"properties": {
"no": "11111",
"lat_and_lon": [
36.00,
-45.00
],
"address": "W South St",
"year": "2014"
},
"timestamp": "2014-03-21T12:28:00-05:00"
}]
Output:
---------------------
| _corrupt_record|
---------------------
| [{|
| "id": "1233",|
| "Key": "123456",|
| "geo_location": {|
| "type": "ABC",|
---------------------