Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/python-3.x/18.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 3.x 数据帧、列表、元组等的内存使用率/效率。_Python 3.x_Pandas - Fatal编程技术网

Python 3.x 数据帧、列表、元组等的内存使用率/效率。

Python 3.x 数据帧、列表、元组等的内存使用率/效率。,python-3.x,pandas,Python 3.x,Pandas,我试图用Python创建一个类,该类最终存储一些文本文档以及每个文档的元数据。想象这样一个结构: ID Text Date Followers 1 "This is a tweet" 10/21/14 57 2 "This is another tweet" 10/22/14 100 3 "Yet another" 10/23/14 3899

我试图用Python创建一个类,该类最终存储一些文本文档以及每个文档的元数据。想象这样一个结构:

ID    Text                        Date       Followers
1     "This is a tweet"           10/21/14   57
2     "This is another tweet"     10/22/14   100
3     "Yet another"               10/23/14   3899 
4     "Another one"               10/25/14   234
存储这样的东西最好、最节省内存的方法是什么?例如,它是四个不同的列表吗?或者是字典和/或元组?还是作为数据帧


两者之间是否存在显著差异?我想将它们存储为一个数据帧,只是为了便于处理数据,但我还想注意更大数据集的内存使用和速度。

您的问题实在太广泛了,无法简单回答。不过,我可以分享一些想法

我倾向于将我的数据放在3个桶中,因为它与大小有关:

在一台机器上安装内存 适用于一台计算机上的磁盘,但不适用于内存 对一台机器来说太大了 我们可以花很多时间讨论这三个bucket中的每一个都应该使用哪个框架或数据结构。然而,我发现我的分析工作90%的时间都很简单:

Numpy阵列还是熊猫 皮Tables Hadoop还是分布式数据库 如果我有令人信服的理由,我只会寻找除上述之外的数据结构


我希望这有点帮助

你的问题实在太宽泛了,无法简单回答。不过,我可以分享一些想法

我倾向于将我的数据放在3个桶中,因为它与大小有关:

在一台机器上安装内存 适用于一台计算机上的磁盘,但不适用于内存 对一台机器来说太大了 我们可以花很多时间讨论这三个bucket中的每一个都应该使用哪个框架或数据结构。然而,我发现我的分析工作90%的时间都很简单:

Numpy阵列还是熊猫 皮Tables Hadoop还是分布式数据库 如果我有令人信服的理由,我只会寻找除上述之外的数据结构


我希望这有点帮助

这个。当数据的大小正好位于内存中的边缘时,我考虑数据结构非常严重。如果有可能减少内存占用以使其正常工作,我会这样做。是的,没错。如果它正好位于一组和另一组之间的边缘,那么它就值得一试。否则,这是一个过早的优化,依我看。当数据的大小正好位于内存中的边缘时,我考虑数据结构非常严重。如果有可能减少内存占用以使其正常工作,我会这样做。是的,没错。如果它正好位于一组和另一组之间的边缘,那么它就值得一试。否则,这是一个过早的优化,依我看。