Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scala 使用SparkSession将Json行的数据集转换为数据帧_Scala_Apache Spark_Dataset - Fatal编程技术网

Scala 使用SparkSession将Json行的数据集转换为数据帧

Scala 使用SparkSession将Json行的数据集转换为数据帧,scala,apache-spark,dataset,Scala,Apache Spark,Dataset,我正在按照上的建议清理一些json数据 但是,该指南已经过时,我想使用sparkSession加载数据集并解析json spark.read.text('file.json').as[String].map(x => parse_json(x)) 因此,我最终得到了一个Dataset[String]而不是RDD[String], 如何读取数据集中的json行?定义一个具有预期结构的case类(类似于java pojo),并将输入数据映射到它。列将自动按名称排列,并且保留类型。考虑人物.J

我正在按照上的建议清理一些json数据

但是,该指南已经过时,我想使用
sparkSession
加载数据集并解析json

spark.read.text('file.json').as[String].map(x => parse_json(x))
因此,我最终得到了一个
Dataset[String]
而不是
RDD[String]
, 如何读取数据集中的json行?

定义一个具有预期结构的case类(类似于java pojo),并将输入数据映射到它。列将自动按名称排列,并且保留类型。考虑人物.JSON为

{"name": "Narsireddy", "age": 30, "technology": "hadoop"} 
定义case类,如 案例类人物(姓名:字符串,年龄:整数,技术:字符串)。读取json文件并映射到人员数据集

val personDataSet = sqlContext.read.json("/person.json").as[Person]

尝试spark.read.text('file.json').map(x=>parse_json(x))。rdd@Pushkr是的,很有效