Apache spark 读取Pyspark中的csv文件时删除格式错误的行,导致作业失败

Apache spark 读取Pyspark中的csv文件时删除格式错误的行,导致作业失败,apache-spark,pyspark,Apache Spark,Pyspark,我正在尝试将一个大型csv数据集读入PySpark。有些数据格式不正确,不符合我指定的架构 我试图从数据帧中删除这种格式错误的行: df_raw=spark.read\ .format("org.apache.spark.csv") \ .option("header","true")\ .option("quote",'"') \ .option("mode", "DROPMALFORMED") \ .schema(df_schema) \ .csv(inp

我正在尝试将一个大型csv数据集读入PySpark。有些数据格式不正确,不符合我指定的架构

我试图从数据帧中删除这种格式错误的行:

df_raw=spark.read\
   .format("org.apache.spark.csv") \
   .option("header","true")\
   .option("quote",'"') \
   .option("mode", "DROPMALFORMED") \
   .schema(df_schema) \
   .csv(input_file)
但是,每当遇到格式错误的行时,它似乎会终止执行器上的作业:

16/11/04 11:24:47 WARN CSVRelation: Dropping malformed line: 
888800017810876000, 10.61,D,10792516955,,,aa999,,"19 Y1U ""R""",EO,,
"10 Y1U ""R""   AI2, YT IA", XXXXXXXXYYYYYYYYYZZZZZZZZZ,
63.0, going great, 2016-05-17,436,2016-05-17,SOMECODE

16/11/04 11:28:14 ERROR Utils: Uncaught exception in thread stdout writer for python
java.net.SocketException: socket already closed
它似乎引起了记忆尖峰。有人能解释一下发生了什么,并提出可能的解决办法吗