Scala 使用SparkSession将Json行的数据集转换为数据帧
我正在按照上的建议清理一些json数据 但是,该指南已经过时,我想使用Scala 使用SparkSession将Json行的数据集转换为数据帧,scala,apache-spark,dataset,Scala,Apache Spark,Dataset,我正在按照上的建议清理一些json数据 但是,该指南已经过时,我想使用sparkSession加载数据集并解析json spark.read.text('file.json').as[String].map(x => parse_json(x)) 因此,我最终得到了一个Dataset[String]而不是RDD[String], 如何读取数据集中的json行?定义一个具有预期结构的case类(类似于java pojo),并将输入数据映射到它。列将自动按名称排列,并且保留类型。考虑人物.J
sparkSession
加载数据集并解析json
spark.read.text('file.json').as[String].map(x => parse_json(x))
因此,我最终得到了一个Dataset[String]
而不是RDD[String]
,
如何读取数据集中的json行?定义一个具有预期结构的case类(类似于java pojo),并将输入数据映射到它。列将自动按名称排列,并且保留类型。考虑人物.JSON为
{"name": "Narsireddy", "age": 30, "technology": "hadoop"}
定义case类,如
案例类人物(姓名:字符串,年龄:整数,技术:字符串)。读取json文件并映射到人员数据集
val personDataSet = sqlContext.read.json("/person.json").as[Person]
尝试spark.read.text('file.json').map(x=>parse_json(x))。rdd@Pushkr是的,很有效