Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Spark:使用read.json()读取非常大的RDD[字符串]_Apache Spark_Spark Dataframe - Fatal编程技术网

Apache spark Spark:使用read.json()读取非常大的RDD[字符串]

Apache spark Spark:使用read.json()读取非常大的RDD[字符串],apache-spark,spark-dataframe,Apache Spark,Spark Dataframe,我使用spark.read.json(RDD)读取json格式的非常大的RDD[String] 这会导致OutOfMemory错误。我已尝试增加执行器/驱动程序内存。以及增加num执行器 除了从JSON字符串的RDD创建数据帧之外,还有其他方法吗?我认为您可以使用spark.createDataFrame(RDD)方法,然后使用sql处理JSON字符串。函数方法,如from_JSON(e:Column,schema:String,options:Map[String,String]):Colum

我使用spark.read.json(RDD)读取json格式的非常大的RDD[String]

这会导致OutOfMemory错误。我已尝试增加执行器/驱动程序内存。以及增加num执行器


除了从JSON字符串的RDD创建数据帧之外,还有其他方法吗?

我认为您可以使用
spark.createDataFrame(RDD)
方法,然后使用
sql处理JSON字符串。函数
方法,如
from_JSON(e:Column,schema:String,options:Map[String,String]):Column