Python 熊猫-是否有可能;倒带“;使用chunk=参数读取\u csv?
我正在处理一个大数据集,因此要在熊猫中读取它,我使用Python 熊猫-是否有可能;倒带“;使用chunk=参数读取\u csv?,python,pandas,chunks,chunking,Python,Pandas,Chunks,Chunking,我正在处理一个大数据集,因此要在熊猫中读取它,我使用read\u csv和chunk=选项 data = pd.read_csv("dataset.csv", chunksize=2e5) 然后,我以以下方式对分块数据帧进行操作 any_na_cols = [chunk.do_something() for chunk in data] 问题是,当我想以与上面相同的方式执行其他操作时,我将得到一个空结果,因为我已经迭代了分块数据帧。因此,我必须再次调用data=pd.read\u csv(“
read\u csv
和chunk=
选项
data = pd.read_csv("dataset.csv", chunksize=2e5)
然后,我以以下方式对分块数据帧进行操作
any_na_cols = [chunk.do_something() for chunk in data]
问题是,当我想以与上面相同的方式执行其他操作时,我将得到一个空结果,因为我已经迭代了分块数据帧。因此,我必须再次调用data=pd.read\u csv(“dataset.csv”,chunksize=2e5)
来执行下一个操作
这很可能没有问题,但出于某种原因,我觉得这种方法在某种程度上是不雅观的。难道没有像
data.rewind()
或类似的方法可以让我再次遍历块吗?我在文档中找不到类似的内容。或者可能我在这种方法上犯了一些设计错误?我认为再次阅读您的CSV不是一个好主意-您将使IOs的数量增加一倍。最好在同一次迭代中“做点别的事情”:
any_na_cols = pd.DataFrame()
for chunk in pd.read_csv("dataset.csv", chunksize=2e5)
any_na_cols = pd.concat([any_na_cols, chunk.do_something()], ignore_index=True)
# do something else
这很有道理,谢谢。然而,这并没有回答最初的问题。有倒带的选项吗?