如何在Scala中解析JsonArray并将其写入数据帧？_Json_Scala_Apache Spark_Apache Spark Sql

如何在Scala中解析JsonArray并将其写入数据帧？

json scala apache-spark

如何在Scala中解析JsonArray并将其写入数据帧？,json,scala,apache-spark,apache-spark-sql,Json,Scala,Apache Spark,Apache Spark Sql,使用Scala HTTP客户端，我从APIGET调用中检索到JSON格式的响应我的最终目标是将此JSON内容写入AWS S3存储桶，以使其作为运行简单的AWS Glue爬虫程序的RedShift上的表我的想法是解析这个JSON消息，并以某种方式将其转换为SparkDataFrame，以便稍后我可以将其以.csv、.parquet或其他格式保存到我首选的S3位置 JSON文件如下所示 { "response": { "status": &qu

使用Scala HTTP客户端，我从API

GET

调用中检索到

JSON

格式的响应

我的最终目标是将此

JSON

内容写入

AWS S3

存储桶，以使其作为运行简单的

AWS Glue

爬虫程序的

RedShift

上的表

我的想法是解析这个

JSON

消息，并以某种方式将其转换为Spark

DataFrame

，以便稍后我可以将其以

.csv

、

.parquet

或其他格式保存到我首选的S3位置

JSON文件如下所示

{
  "response": {
    "status": "OK",
    "start_element": 0,
    "num_elements": 100,
    "categories": [
      {
        "id": 1,
        "name": "Airlines",
        "is_sensitive": false,
        "last_modified": "2010-03-19 17:48:36",
        "requires_whitelist_on_external": false,
        "requires_whitelist_on_managed": false,
        "is_brand_eligible": true,
        "requires_whitelist": false,
        "whitelist": {
          "geos": [],
          "countries_and_brands": []
        }
      },
      {
        "id": 2,
        "name": "Apparel",
        "is_sensitive": false,
        "last_modified": "2010-03-19 17:48:36",
        "requires_whitelist_on_external": false,
        "requires_whitelist_on_managed": false,
        "is_brand_eligible": true,
        "requires_whitelist": false,
        "whitelist": {
          "geos": [],
          "countries_and_brands": []
        }
      }
    ],
    "count": 148,
    "dbg_info": {
      "warnings": [],
      "version": "1.18.1621",
      "output_term": "categories"
    }
  }
}

我想映射到数据帧的内容是

“categories”

JSON数组所包含的内容
我已经设法使用json4s.JsonMethods
methodparse
以这种方式解析了消息：
val parsedJson = parse(request) \\ "categories"

获取以下信息：
output: org.json4s.JValue = JArray(List(JObject(List((id,JInt(1)), (name,JString(Airlines)), (is_sensitive,JBool(false)), (last_modified,JString(2010-03-19 17:48:36)), (requires_whitelist_on_external,JBool(false)), (requires_whitelist_on_managed,JBool(false)), (is_brand_eligible,JBool(true)), (requires_whitelist,JBool(false)), (whitelist,JObject(List((geos,JArray(List())), (countries_and_brands,JArray(List()))))))), JObject(List((id,JInt(2)), (name,JString(Apparel)), (is_sensitive,JBool(false)), (last_modified,JString(2010-03-19 17:48:36)), (requires_whitelist_on_external,JBool(false)), (requires_whitelist_on_managed,JBool(false)), (is_brand_eligible,JBool(true)), (requires_whitelist,JBool(false)), (whitelist,JObject(List((geos,JArray(List())), (countries_and_brands,JArray(List()))))))))

然而，我完全不知道如何进行。我甚至尝试过使用另一个Scala库，名为uJson
：
val json = (ujson.read(request))
val tuples = json("response")("categories").arr /* <-- categories is an array */ .map { item => 
(item("id"), item("name")) 

然而，这一次我也不知道如何前进，我尝试的每件事都会导致错误，主要与格式不兼容有关
请随意提出任何其他方法来实现我的目标，即使它完全改变了我的工作流程。我宁愿好好学点东西。谢谢
我们可以使用以下代码将JSON转换为Spark Dataframe/Dataset
val df00=
spark.read.option（“multiline”，“true”）.json（Seq（json_OUTPUT）.toDS（））
tuples: scala.collection.mutable.ArrayBuffer[(ujson.Value, ujson.Value, ujson.Value, ujson.Value)] = ArrayBuffer((1,"Airlines",false,"2010-03-19 17:48:36"), (2,"Apparel",false,"2010-03-19 17:48:36"))