Dataframe 拼花文件加载到内存的内部过程

Dataframe 拼花文件加载到内存的内部过程,dataframe,memory,parquet,fastparquet,Dataframe,Memory,Parquet,Fastparquet,每个人我都有一个关于拼花文件的问题。最近,我生成了一个拼花地板文件,压缩后约为1GB,但最初约为50GB的数据。但我这里的问题是,当我尝试将这个拼花地板文件加载到内存中时,它会抛出一个错误,即无法为请求的资源分配内存 MemoryError:无法为具有形状(1014429306)和数据类型对象的数组分配1.08 GiB 我的问题: Q1:当熊猫将拼花地板文件加载到内存中时,它们将被解压缩。如果不是,为什么1 GB拼花地板文件不能在16 GB的计算机上运行,因为它在运行时有大约12 GB的可用内存

每个人我都有一个关于拼花文件的问题。最近,我生成了一个拼花地板文件,压缩后约为1GB,但最初约为50GB的数据。但我这里的问题是,当我尝试将这个拼花地板文件加载到内存中时,它会抛出一个错误,即无法为请求的资源分配内存

MemoryError:无法为具有形状(1014429306)和数据类型对象的数组分配1.08 GiB

我的问题:

Q1:当熊猫将拼花地板文件加载到内存中时,它们将被解压缩。如果不是,为什么1 GB拼花地板文件不能在16 GB的计算机上运行,因为它在运行时有大约12 GB的可用内存?

Q2:所以我甚至尝试过使用Dask数据帧,但仍然没有发现它有很好的性能

请让我知道从拼花文件加载数据时发生的内部情况。这样我可以在加载到内存时了解更多关于文件格式属性的信息。dask文档还建议在数据大小超过内存时使用它。但在这种情况下,即使使用dask,我也无法获得良好的性能,因此任何设置或计算机是否存在问题。