Python 更快地读入csv文件

Python 更快地读入csv文件,python,csv,Python,Csv,我目前正在阅读一个大的csv文件(大约1亿行),使用的命令如下所述: 我怀疑这相当慢,因为每一行都是单独读取的(需要对硬盘进行大量读取调用)。有没有办法一次读取整个csv文件,然后对其进行迭代?虽然文件本身的大小很大(例如5Gb),但我的机器有足够的ram将其保存在内存中 import pandas as pd df =pd.DataFrame.from_csv('filename.csv') 这将把它作为一个数据框读入,这样你就可以用它做各种有趣的事情 这将把它作为一个数据框读入,这样你就可

我目前正在阅读一个大的csv文件(大约1亿行),使用的命令如下所述:

我怀疑这相当慢,因为每一行都是单独读取的(需要对硬盘进行大量读取调用)。有没有办法一次读取整个csv文件,然后对其进行迭代?虽然文件本身的大小很大(例如5Gb),但我的机器有足够的ram将其保存在内存中

import pandas as pd
df =pd.DataFrame.from_csv('filename.csv')
这将把它作为一个数据框读入,这样你就可以用它做各种有趣的事情

这将把它作为一个数据框读入,这样你就可以用它做各种有趣的事情

我的机器有足够的内存来存储它

import pandas as pd
df =pd.DataFrame.from_csv('filename.csv')
那么,在迭代器上调用
list

我的机器有足够的内存来存储它

import pandas as pd
df =pd.DataFrame.from_csv('filename.csv')
那么,在迭代器上调用
list


是的,有一种方法可以一次读取整个文件:

with open('eggs.csv', 'rb', 5000000000) as ...:
    ... 

参考资料:

是的,有一种方法可以一次读取整个文件:

with open('eggs.csv', 'rb', 5000000000) as ...:
    ... 

参考资料:

如果csv文件比ram大,则可以使用

  • DASK(DASK是Python的并行计算和数据分析库。它支持为计算和大数据收集而优化的动态任务调度。)


使用dask dataframe,即使数据集很大,也可以进行数据分析

如果csv文件比ram大,则可以使用

  • DASK(DASK是Python的并行计算和数据分析库。它支持为计算和大数据收集而优化的动态任务调度。)


使用dask dataframe,您可以进行数据分析,即使您有大数据集

,代码也不会一次读取一行文件。在适当大小的缓冲区中读取输入。很可能由于RAM的使用,输入速度较慢。一个5GB的文件在解析后需要的内存可能远远超过5GB。是的,在我的机器崩溃之前,它很快就使用了26gb的内存!吸取的教训…代码不是一次读取一行文件。在适当大小的缓冲区中读取输入。很可能由于RAM的使用,输入速度较慢。一个5GB的文件在解析后需要的内存可能远远超过5GB。是的,在我的机器崩溃之前,它很快就使用了26gb的内存!吸取的教训…也许更愿意阅读csv?请参阅。也许更愿意阅读csv?看见