Python 熊猫-读取期间跳过最后的X行
有时数据库的末尾带有专有标记(即最后5行是copywrite通知),需要忽略这些标记,否则会弄乱数据集。简单地将Python 熊猫-读取期间跳过最后的X行,python,pandas,Python,Pandas,有时数据库的末尾带有专有标记(即最后5行是copywrite通知),需要忽略这些标记,否则会弄乱数据集。简单地将skiprows与nrows结合使用来硬编码某些行号是不可行的,因为不同的数据库文件可能具有不同的长度。使用各种read功能时,有没有办法让熊猫跳过文件的最后X行 澄清: 根据我的经验,在数据文件的底部,最常见的通知是表单 Name Copyright (c) _____ All rights reserved. Confidentiality Notice Owner Owner c
skiprows
与nrows
结合使用来硬编码某些行号是不可行的,因为不同的数据库文件可能具有不同的长度。使用各种read
功能时,有没有办法让熊猫跳过文件的最后X行
澄清:
根据我的经验,在数据文件的底部,最常见的通知是表单
Name
Copyright (c) _____ All rights reserved.
Confidentiality Notice
Owner
Owner company
其中,所有这些都只是第一列中的文本,在数据结束后的一行或多行空行后粘贴(可以使用df.dropna(how='all'inplace=True)
处理这些空行)
注意:python减号表示法,即
skiprows=-7
不起作用,并且开放式硬编码ieskiprows=[195:]
也不起作用(因为解释器在读取文件之前不知道文件的长度).关于skipfooter
如何?skipfooter
是不可靠的,因为如果使用基于c的解释器,它会由于名称冲突而中断。comment
参数如何。如果您使用engine='c'
导入数据,则不支持该选项。使用engine='python'
代替。clude解决方案:df.dropna(subset=[column\u name],inplace=True)
可以在导入后完成,确保column\u name
不会影响其他地方。不过,这可能会有风险,因为如果您在该列中有一个NaN
,它将在稍后被删除。