Apache spark Spark：使用read.json（）读取非常大的RDD[字符串]_Apache Spark_Spark Dataframe

Apache spark Spark：使用read.json（）读取非常大的RDD[字符串]

apache-spark

Apache spark Spark：使用read.json（）读取非常大的RDD[字符串],apache-spark,spark-dataframe,Apache Spark,Spark Dataframe,我使用spark.read.json（RDD）读取json格式的非常大的RDD[String] 这会导致OutOfMemory错误。我已尝试增加执行器/驱动程序内存。以及增加num执行器除了从JSON字符串的RDD创建数据帧之外，还有其他方法吗？我认为您可以使用spark.createDataFrame（RDD）方法，然后使用sql处理JSON字符串。函数方法，如from_JSON（e:Column，schema:String，options:Map[String，String]）：Colum

我使用spark.read.json（RDD）读取json格式的非常大的RDD[String]

这会导致OutOfMemory错误。我已尝试增加执行器/驱动程序内存。以及增加num执行器

除了从JSON字符串的RDD创建数据帧之外，还有其他方法吗？

我认为您可以使用

spark.createDataFrame（RDD）

方法，然后使用

sql处理JSON字符串。函数

方法，如

from_JSON（e:Column，schema:String，options:Map[String，String]）：Column