Dataframe 如何从spark中的csv文件中跳过包含的列数大于标题列数的行_Dataframe_Pyspark

Dataframe 如何从spark中的csv文件中跳过包含的列数大于标题列数的行

dataframe pyspark

Dataframe 如何从spark中的csv文件中跳过包含的列数大于标题列数的行,dataframe,pyspark,Dataframe,Pyspark,例如：身份证、姓名、部门史密斯，人力资源部约翰，它，评论史蒂文，销售部我需要忽略第2行，只读取第一个和最后一个记录提前感谢…如果您只想跳过格式错误的记录，可以使用例如： spark .read .option("header", true) .option("mode", "DROPMALFORMED") .csv(path)

例如：

身份证、姓名、部门

史密斯，人力资源部

约翰，它，评论

史蒂文，销售部

我需要忽略第2行，只读取第一个和最后一个记录

提前感谢…

如果您只想跳过格式错误的记录，可以使用

例如：

spark
 .read
 .option("header", true)
 .option("mode", "DROPMALFORMED")
 .csv(path)