Python 熊猫-是否有可能；倒带“；使用chunk=参数读取\u csv？_Python_Pandas_Chunks_Chunking

Python 熊猫-是否有可能；倒带“；使用chunk=参数读取\u csv？

python pandas

Python 熊猫-是否有可能；倒带“；使用chunk=参数读取\u csv？,python,pandas,chunks,chunking,Python,Pandas,Chunks,Chunking,我正在处理一个大数据集，因此要在熊猫中读取它，我使用read\u csv和chunk=选项 data = pd.read_csv("dataset.csv", chunksize=2e5) 然后，我以以下方式对分块数据帧进行操作 any_na_cols = [chunk.do_something() for chunk in data] 问题是，当我想以与上面相同的方式执行其他操作时，我将得到一个空结果，因为我已经迭代了分块数据帧。因此，我必须再次调用data=pd.read\u csv（“

我正在处理一个大数据集，因此要在熊猫中读取它，我使用

read\u csv

和

chunk=

选项

data = pd.read_csv("dataset.csv", chunksize=2e5)

然后，我以以下方式对分块数据帧进行操作

any_na_cols = [chunk.do_something() for chunk in data]

问题是，当我想以与上面相同的方式执行其他操作时，我将得到一个空结果，因为我已经迭代了分块数据帧。因此，我必须再次调用

data=pd.read\u csv（“dataset.csv”，chunksize=2e5）

来执行下一个操作

这很可能没有问题，但出于某种原因，我觉得这种方法在某种程度上是不雅观的。难道没有像

data.rewind（）

或类似的方法可以让我再次遍历块吗？我在文档中找不到类似的内容。或者可能我在这种方法上犯了一些设计错误？

我认为再次阅读您的CSV不是一个好主意-您将使IOs的数量增加一倍。最好在同一次迭代中“做点别的事情”：

any_na_cols = pd.DataFrame()

for chunk in pd.read_csv("dataset.csv", chunksize=2e5)
    any_na_cols = pd.concat([any_na_cols, chunk.do_something()], ignore_index=True)
    # do something else

这很有道理，谢谢。然而，这并没有回答最初的问题。有倒带的选项吗？