如何在python中使用大数组？_Python_Arrays_Cluster Computing

如何在python中使用大数组？

python arrays cluster-computing

如何在python中使用大数组？,python,arrays,cluster-computing,Python,Arrays,Cluster Computing,我需要从Sqlite数据库中用python创建一个大数组。它的大小是1000_000_000*1000_000_000，每个项目是一或零。事实上，我的电脑不能在RAM中存储这么多的信息。也许有人知道如何在这种情况下工作？也许将这些向量存储在数据库中，或者有类似需求的框架？如果我能够做到这一点，那么我需要构建集群，这个问题让我感到恐惧，因为信息量如此之大。提前感谢/我也处理非常大的数据集（完整的基因组或所有可能的基因组合），我用pickle将它们存储在压缩数据库中。这样，它的ram效率高，使用的

我需要从Sqlite数据库中用python创建一个大数组。它的大小是1000_000_000*1000_000_000，每个项目是一或零。事实上，我的电脑不能在RAM中存储这么多的信息。也许有人知道如何在这种情况下工作？也许将这些向量存储在数据库中，或者有类似需求的框架？如果我能够做到这一点，那么我需要构建集群，这个问题让我感到恐惧，因为信息量如此之大。

提前感谢/

我也处理非常大的数据集（完整的基因组或所有可能的基因组合），我用pickle将它们存储在压缩数据库中。这样，它的ram效率高，使用的硬盘内存少很多。

我建议你试试。

我建议您尝试一下。

基本上您需要改变您的方法-对于如此大的数据帧，您最好采用其他方案，而不是“在内存中加载所有内容”。什么样的计划在很大程度上取决于你想要实现什么。值得注意的示例：批处理（加载子集、处理、卸载、下一步加载）、搜索树（显然是为了搜索），等等。您可能需要查看，或者您可以将数组存储在文件中<代码>每个项目都是一或零-因此，您确切地知道文件中的哪个项目位于哪个位置。我忘了说一件重要的事情。有很多向量都是空的，也就是说有些向量只包含零。我想试着通过numPy或类似的方式来使用parseMatrix。基本上，你需要改变你的方法——对于如此大的数据帧，你最好采用其他的方案，而不是“在内存中加载所有内容”。什么样的计划在很大程度上取决于你想要实现什么。值得注意的示例：批处理（加载子集、处理、卸载、下一步加载）、搜索树（显然是为了搜索），等等。您可能需要查看，或者您可以将数组存储在文件中<代码>每个项目都是一或零-因此，您确切地知道文件中的哪个项目位于哪个位置。我忘了说一件重要的事情。有很多向量都是空的，也就是说有些向量只包含零。我想尝试通过numPy或类似的东西来使用parseMatrix。