Dataframe 如何从spark中的csv文件中跳过包含的列数大于标题列数的行

Dataframe 如何从spark中的csv文件中跳过包含的列数大于标题列数的行,dataframe,pyspark,Dataframe,Pyspark,例如: 身份证、姓名、部门 史密斯,人力资源部 约翰,它,评论 史蒂文,销售部 我需要忽略第2行,只读取第一个和最后一个记录 提前感谢…如果您只想跳过格式错误的记录,可以使用 例如: spark .read .option("header", true) .option("mode", "DROPMALFORMED") .csv(path)

例如:

身份证、姓名、部门

史密斯,人力资源部

约翰,它,评论

史蒂文,销售部

我需要忽略第2行,只读取第一个和最后一个记录


提前感谢…

如果您只想跳过格式错误的记录,可以使用

例如:

spark
 .read
 .option("header", true)
 .option("mode", "DROPMALFORMED")
 .csv(path)