Python 分析80GB文件中仅32GB内存的巨大数据集_Python_Arrays_Plot

Python 分析80GB文件中仅32GB内存的巨大数据集

python arrays plot

Python 分析80GB文件中仅32GB内存的巨大数据集,python,arrays,plot,Python,Arrays,Plot,我有非常大的文本文件（大约80G）。该文件只包含数字（整数+浮点数），有20列。现在我要分析每一列。通过分析，我的意思是，我必须对每一列做一些基本的计算，比如找到平均值，绘制直方图，检查条件是否满足等等。我正在阅读如下文件 with open(filename) as original_file: all_rows = [[float(digit) for digit in line.split()] for line in original_file] all_rows

我有非常大的文本文件（大约80G）。该文件只包含数字（整数+浮点数），有20列。现在我要分析每一列。通过分析，我的意思是，我必须对每一列做一些基本的计算，比如找到平均值，绘制直方图，检查条件是否满足等等。我正在阅读如下文件

with open(filename) as original_file:
        all_rows = [[float(digit) for digit in line.split()] for line in original_file]
    all_rows = np.asarray(all_rows)

在此之后，我对特定列进行所有分析。我使用“良好”配置的服务器/工作站（32GB RAM）来执行我的程序。问题是我不能完成我的工作。我等了差不多一天才完成那个程序，但一天后它仍在运行。后来我不得不手动杀死它。我知道我的脚本是正确的，没有任何错误，因为我在较小大小的文件（大约1G）上尝试过相同的脚本，它工作得很好

我最初的猜测是它会有一些记忆问题。我有办法做这样的工作吗？用不同的方法还是别的方法

我尝试将文件拆分成更小的文件大小，然后在循环中分别分析它们，如下所示

pre_name = "split_file"   
for k in range(11):  #There are 10 files with almost 8G each
        filename = pre_name+str(k).zfill(3) #My files are in form "split_file000, split_file001 ..."
        with open(filename) as original_file:
            all_rows = [[float(digit) for digit in line.split()] for line in original_file]
        all_rows = np.asarray(all_rows)
        #Some analysis here
        plt.hist(all_rows[:,8],100)  #Plotting histogram for 9th Column
all_rows = None

我已经在一堆较小的文件上测试了上述代码，效果很好。然而，当我在大文件上使用时，又出现了同样的问题。有什么建议吗？还有其他更干净的方法吗？

对于这样长的操作（当数据不适合内存时），使用诸如dask（）之类的库，特别是

dask.dataframe.read_csv

来读取数据，然后像在pandas库中一样执行操作可能会很有用（要提及的另一个有用的包）

您应该将数据放入适当的数据库，并利用该数据库系统的统计和数据处理功能，例如，和
随机链接：

您应该将数据放入适当的数据库，并利用该数据库系统的统计和数据处理功能，例如，和
随机链接：

hist

80G

hist

80G

hist

scatter

hist

hist

80G

hist

80G

hist

scatter

hist