如何在Python中持久存储和高效访问非常大的2D列表?
在Python中,我正在读取一个非常大的2D数据网格,该网格总共包含大约200000000个数据点。每个数据点是由3个浮点组成的元组。将所有这些数据读入二维列表通常会导致内存错误。为了避免这个内存错误,我希望能够将这些数据读入硬盘上的某种表格中,当给定一个网格坐标时,可以有效地访问这些表格,即harddrive_table.get(300,42) 到目前为止,在我的研究中,我遇到了HDF5的一个实现,看起来有些过分,还有内置的库,它使用类似字典的方法访问保存的数据,但关键点必须是字符串,而将数亿个网格坐标转换为字符串存储的性能可能会对我的使用造成太大的性能影响 是否有任何库允许我在硬盘上存储一个2D数据表,并对单个数据点进行有效访问 这个数据表只在程序运行时才需要,所以我不关心它的互操作性,也不关心它如何将数据存储在硬盘上,因为它将在程序运行后被删除如何在Python中持久存储和高效访问非常大的2D列表?,python,database,storage,Python,Database,Storage,在Python中,我正在读取一个非常大的2D数据网格,该网格总共包含大约200000000个数据点。每个数据点是由3个浮点组成的元组。将所有这些数据读入二维列表通常会导致内存错误。为了避免这个内存错误,我希望能够将这些数据读入硬盘上的某种表格中,当给定一个网格坐标时,可以有效地访问这些表格,即harddrive_table.get(300,42) 到目前为止,在我的研究中,我遇到了HDF5的一个实现,看起来有些过分,还有内置的库,它使用类似字典的方法访问保存的数据,但关键点必须是字符串,而将数亿
看,你尝过辣的吗?我使用的是60000 X 60000矩阵,我所做的是将每一行保存为一个Spicle.稀疏的列表。此外,考虑使用GCP(谷歌云平台),你有免费试用(CC需要),但有一些强大的计算机大数据集(AI笔记本电脑)