如何在python中使用生成器循环大型拼花地板文件?

如何在python中使用生成器循环大型拼花地板文件?,python,pandas,dataframe,generator,parquet,Python,Pandas,Dataframe,Generator,Parquet,是否可以使用生成器打开拼花地板文件并逐行迭代?这是为了避免将整个拼花地板文件加载到内存中 文件的内容是数据帧。不能逐行迭代,因为它不是存储方式。您可以按如下方式遍历行组: from fastparquet import ParquetFile pf = ParquetFile('myfile.parq') for df in pf.iter_row_groups(): process sub-data-frame df 您可以使用tensorflow\u io进行迭代 import t

是否可以使用生成器打开拼花地板文件并逐行迭代?这是为了避免将整个拼花地板文件加载到内存中


文件的内容是数据帧。

不能逐行迭代,因为它不是存储方式。您可以按如下方式遍历行组:

from fastparquet import ParquetFile
pf = ParquetFile('myfile.parq')
for df in pf.iter_row_groups():
    process sub-data-frame df

您可以使用tensorflow\u io进行迭代

import tensorflow_io as tfio

dataset = tfio.IODataset.from_parquet('myfile.parquet')

for line in dataset.take(3):
    # print the first 3 lines
    print(line)