如何在python中使用生成器循环大型拼花地板文件?
是否可以使用生成器打开拼花地板文件并逐行迭代?这是为了避免将整个拼花地板文件加载到内存中如何在python中使用生成器循环大型拼花地板文件?,python,pandas,dataframe,generator,parquet,Python,Pandas,Dataframe,Generator,Parquet,是否可以使用生成器打开拼花地板文件并逐行迭代?这是为了避免将整个拼花地板文件加载到内存中 文件的内容是数据帧。不能逐行迭代,因为它不是存储方式。您可以按如下方式遍历行组: from fastparquet import ParquetFile pf = ParquetFile('myfile.parq') for df in pf.iter_row_groups(): process sub-data-frame df 您可以使用tensorflow\u io进行迭代 import t
文件的内容是数据帧。不能逐行迭代,因为它不是存储方式。您可以按如下方式遍历行组:
from fastparquet import ParquetFile
pf = ParquetFile('myfile.parq')
for df in pf.iter_row_groups():
process sub-data-frame df
您可以使用tensorflow\u io进行迭代
import tensorflow_io as tfio
dataset = tfio.IODataset.from_parquet('myfile.parquet')
for line in dataset.take(3):
# print the first 3 lines
print(line)