如何在python中使用大数组?

如何在python中使用大数组?,python,arrays,cluster-computing,Python,Arrays,Cluster Computing,我需要从Sqlite数据库中用python创建一个大数组。它的大小是1000_000_000*1000_000_000,每个项目是一或零。事实上,我的电脑不能在RAM中存储这么多的信息。也许有人知道如何在这种情况下工作?也许将这些向量存储在数据库中,或者有类似需求的框架?如果我能够做到这一点,那么我需要构建集群,这个问题让我感到恐惧,因为信息量如此之大。 提前感谢/我也处理非常大的数据集(完整的基因组或所有可能的基因组合),我用pickle将它们存储在压缩数据库中。这样,它的ram效率高,使用的

我需要从Sqlite数据库中用python创建一个大数组。它的大小是1000_000_000*1000_000_000,每个项目是一或零。事实上,我的电脑不能在RAM中存储这么多的信息。也许有人知道如何在这种情况下工作?也许将这些向量存储在数据库中,或者有类似需求的框架?如果我能够做到这一点,那么我需要构建集群,这个问题让我感到恐惧,因为信息量如此之大。
提前感谢/

我也处理非常大的数据集(完整的基因组或所有可能的基因组合),我用pickle将它们存储在压缩数据库中。这样,它的ram效率高,使用的硬盘内存少很多。
我建议你试试。

我也处理非常大的数据集(完整的基因组或所有可能的基因组合),我用pickle将它们存储在压缩数据库中。这样,它的ram效率高,使用的硬盘内存少很多。
我建议您尝试一下。

基本上您需要改变您的方法-对于如此大的数据帧,您最好采用其他方案,而不是“在内存中加载所有内容”。什么样的计划在很大程度上取决于你想要实现什么。值得注意的示例:批处理(加载子集、处理、卸载、下一步加载)、搜索树(显然是为了搜索),等等。您可能需要查看,或者您可以将数组存储在文件中<代码>每个项目都是一或零-因此,您确切地知道文件中的哪个项目位于哪个位置。我忘了说一件重要的事情。有很多向量都是空的,也就是说有些向量只包含零。我想试着通过numPy或类似的方式来使用parseMatrix。基本上,你需要改变你的方法——对于如此大的数据帧,你最好采用其他的方案,而不是“在内存中加载所有内容”。什么样的计划在很大程度上取决于你想要实现什么。值得注意的示例:批处理(加载子集、处理、卸载、下一步加载)、搜索树(显然是为了搜索),等等。您可能需要查看,或者您可以将数组存储在文件中<代码>每个项目都是一或零-因此,您确切地知道文件中的哪个项目位于哪个位置。我忘了说一件重要的事情。有很多向量都是空的,也就是说有些向量只包含零。我想尝试通过numPy或类似的东西来使用parseMatrix。