Dataframe 如何从spark中的csv文件中跳过包含的列数大于标题列数的行
例如: 身份证、姓名、部门 史密斯,人力资源部 约翰,它,评论 史蒂文,销售部 我需要忽略第2行,只读取第一个和最后一个记录Dataframe 如何从spark中的csv文件中跳过包含的列数大于标题列数的行,dataframe,pyspark,Dataframe,Pyspark,例如: 身份证、姓名、部门 史密斯,人力资源部 约翰,它,评论 史蒂文,销售部 我需要忽略第2行,只读取第一个和最后一个记录 提前感谢…如果您只想跳过格式错误的记录,可以使用 例如: spark .read .option("header", true) .option("mode", "DROPMALFORMED") .csv(path)
提前感谢…如果您只想跳过格式错误的记录,可以使用 例如:
spark
.read
.option("header", true)
.option("mode", "DROPMALFORMED")
.csv(path)