Python 熊猫-读取期间跳过最后的X行_Python_Pandas

Python 熊猫-读取期间跳过最后的X行

python pandas

Python 熊猫-读取期间跳过最后的X行,python,pandas,Python,Pandas,有时数据库的末尾带有专有标记（即最后5行是copywrite通知），需要忽略这些标记，否则会弄乱数据集。简单地将skiprows与nrows结合使用来硬编码某些行号是不可行的，因为不同的数据库文件可能具有不同的长度。使用各种read功能时，有没有办法让熊猫跳过文件的最后X行澄清：根据我的经验，在数据文件的底部，最常见的通知是表单 Name Copyright (c) _____ All rights reserved. Confidentiality Notice Owner Owner c

有时数据库的末尾带有专有标记（即最后5行是copywrite通知），需要忽略这些标记，否则会弄乱数据集。简单地将

skiprows

与

nrows

结合使用来硬编码某些行号是不可行的，因为不同的数据库文件可能具有不同的长度。使用各种

read

功能时，有没有办法让熊猫跳过文件的最后X行

澄清：根据我的经验，在数据文件的底部，最常见的通知是表单

Name
Copyright (c) _____ All rights reserved.
Confidentiality Notice
Owner
Owner company

其中，所有这些都只是第一列中的文本，在数据结束后的一行或多行空行后粘贴（可以使用

df.dropna（how='all'inplace=True）

处理这些空行）

注意：python减号表示法，即

skiprows=-7

不起作用，并且开放式硬编码ie

skiprows=[195:]

也不起作用（因为解释器在读取文件之前不知道文件的长度）.

关于

skipfooter

如何？

skipfooter

是不可靠的，因为如果使用基于c的解释器，它会由于名称冲突而中断。

comment

参数如何。如果您使用

engine='c'

导入数据，则不支持该选项。使用

engine='python'

代替。clude解决方案：

df.dropna（subset=[column\u name]，inplace=True）

可以在导入后完成，确保

column\u name

不会影响其他地方。不过，这可能会有风险，因为如果您在该列中有一个

NaN

，它将在稍后被删除。