Python 熊猫-是否有可能;倒带“;使用chunk=参数读取\u csv?

Python 熊猫-是否有可能;倒带“;使用chunk=参数读取\u csv?,python,pandas,chunks,chunking,Python,Pandas,Chunks,Chunking,我正在处理一个大数据集,因此要在熊猫中读取它,我使用read\u csv和chunk=选项 data = pd.read_csv("dataset.csv", chunksize=2e5) 然后,我以以下方式对分块数据帧进行操作 any_na_cols = [chunk.do_something() for chunk in data] 问题是,当我想以与上面相同的方式执行其他操作时,我将得到一个空结果,因为我已经迭代了分块数据帧。因此,我必须再次调用data=pd.read\u csv(“

我正在处理一个大数据集,因此要在熊猫中读取它,我使用
read\u csv
chunk=
选项

data = pd.read_csv("dataset.csv", chunksize=2e5)
然后,我以以下方式对分块数据帧进行操作

any_na_cols = [chunk.do_something() for chunk in data]
问题是,当我想以与上面相同的方式执行其他操作时,我将得到一个空结果,因为我已经迭代了分块数据帧。因此,我必须再次调用
data=pd.read\u csv(“dataset.csv”,chunksize=2e5)
来执行下一个操作


这很可能没有问题,但出于某种原因,我觉得这种方法在某种程度上是不雅观的。难道没有像
data.rewind()
或类似的方法可以让我再次遍历块吗?我在文档中找不到类似的内容。或者可能我在这种方法上犯了一些设计错误?

我认为再次阅读您的CSV不是一个好主意-您将使IOs的数量增加一倍。最好在同一次迭代中“做点别的事情”:

any_na_cols = pd.DataFrame()

for chunk in pd.read_csv("dataset.csv", chunksize=2e5)
    any_na_cols = pd.concat([any_na_cols, chunk.do_something()], ignore_index=True)
    # do something else

这很有道理,谢谢。然而,这并没有回答最初的问题。有倒带的选项吗?