Python 3.x 数据帧、列表、元组等的内存使用率/效率。_Python 3.x_Pandas

Python 3.x 数据帧、列表、元组等的内存使用率/效率。

python-3.x pandas

Python 3.x 数据帧、列表、元组等的内存使用率/效率。,python-3.x,pandas,Python 3.x,Pandas,我试图用Python创建一个类，该类最终存储一些文本文档以及每个文档的元数据。想象这样一个结构： ID Text Date Followers 1 "This is a tweet" 10/21/14 57 2 "This is another tweet" 10/22/14 100 3 "Yet another" 10/23/14 3899

我试图用Python创建一个类，该类最终存储一些文本文档以及每个文档的元数据。想象这样一个结构：

ID    Text                        Date       Followers
1     "This is a tweet"           10/21/14   57
2     "This is another tweet"     10/22/14   100
3     "Yet another"               10/23/14   3899 
4     "Another one"               10/25/14   234

存储这样的东西最好、最节省内存的方法是什么？例如，它是四个不同的列表吗？或者是字典和/或元组？还是作为数据帧

两者之间是否存在显著差异？我想将它们存储为一个数据帧，只是为了便于处理数据，但我还想注意更大数据集的内存使用和速度。

您的问题实在太广泛了，无法简单回答。不过，我可以分享一些想法

我倾向于将我的数据放在3个桶中，因为它与大小有关：

在一台机器上安装内存适用于一台计算机上的磁盘，但不适用于内存对一台机器来说太大了我们可以花很多时间讨论这三个bucket中的每一个都应该使用哪个框架或数据结构。然而，我发现我的分析工作90%的时间都很简单：

Numpy阵列还是熊猫皮Tables Hadoop还是分布式数据库如果我有令人信服的理由，我只会寻找除上述之外的数据结构

我希望这有点帮助

你的问题实在太宽泛了，无法简单回答。不过，我可以分享一些想法

我倾向于将我的数据放在3个桶中，因为它与大小有关：

Numpy阵列还是熊猫皮Tables Hadoop还是分布式数据库如果我有令人信服的理由，我只会寻找除上述之外的数据结构

我希望这有点帮助

这个。当数据的大小正好位于内存中的边缘时，我考虑数据结构非常严重。如果有可能减少内存占用以使其正常工作，我会这样做。是的，没错。如果它正好位于一组和另一组之间的边缘，那么它就值得一试。否则，这是一个过早的优化，依我看。当数据的大小正好位于内存中的边缘时，我考虑数据结构非常严重。如果有可能减少内存占用以使其正常工作，我会这样做。是的，没错。如果它正好位于一组和另一组之间的边缘，那么它就值得一试。否则，这是一个过早的优化，依我看。