Python 3.x 数据帧、列表、元组等的内存使用率/效率。
我试图用Python创建一个类,该类最终存储一些文本文档以及每个文档的元数据。想象这样一个结构:Python 3.x 数据帧、列表、元组等的内存使用率/效率。,python-3.x,pandas,Python 3.x,Pandas,我试图用Python创建一个类,该类最终存储一些文本文档以及每个文档的元数据。想象这样一个结构: ID Text Date Followers 1 "This is a tweet" 10/21/14 57 2 "This is another tweet" 10/22/14 100 3 "Yet another" 10/23/14 3899
ID Text Date Followers
1 "This is a tweet" 10/21/14 57
2 "This is another tweet" 10/22/14 100
3 "Yet another" 10/23/14 3899
4 "Another one" 10/25/14 234
存储这样的东西最好、最节省内存的方法是什么?例如,它是四个不同的列表吗?或者是字典和/或元组?还是作为数据帧
两者之间是否存在显著差异?我想将它们存储为一个数据帧,只是为了便于处理数据,但我还想注意更大数据集的内存使用和速度。您的问题实在太广泛了,无法简单回答。不过,我可以分享一些想法 我倾向于将我的数据放在3个桶中,因为它与大小有关: 在一台机器上安装内存 适用于一台计算机上的磁盘,但不适用于内存 对一台机器来说太大了 我们可以花很多时间讨论这三个bucket中的每一个都应该使用哪个框架或数据结构。然而,我发现我的分析工作90%的时间都很简单: Numpy阵列还是熊猫 皮Tables Hadoop还是分布式数据库 如果我有令人信服的理由,我只会寻找除上述之外的数据结构
我希望这有点帮助 你的问题实在太宽泛了,无法简单回答。不过,我可以分享一些想法 我倾向于将我的数据放在3个桶中,因为它与大小有关: 在一台机器上安装内存 适用于一台计算机上的磁盘,但不适用于内存 对一台机器来说太大了 我们可以花很多时间讨论这三个bucket中的每一个都应该使用哪个框架或数据结构。然而,我发现我的分析工作90%的时间都很简单: Numpy阵列还是熊猫 皮Tables Hadoop还是分布式数据库 如果我有令人信服的理由,我只会寻找除上述之外的数据结构
我希望这有点帮助 这个。当数据的大小正好位于内存中的边缘时,我考虑数据结构非常严重。如果有可能减少内存占用以使其正常工作,我会这样做。是的,没错。如果它正好位于一组和另一组之间的边缘,那么它就值得一试。否则,这是一个过早的优化,依我看。当数据的大小正好位于内存中的边缘时,我考虑数据结构非常严重。如果有可能减少内存占用以使其正常工作,我会这样做。是的,没错。如果它正好位于一组和另一组之间的边缘,那么它就值得一试。否则,这是一个过早的优化,依我看。