Python 加快将大型excel文件导入数据框的速度

Python 加快将大型excel文件导入数据框的速度,python,excel,pandas,Python,Excel,Pandas,我有一个相对较大的excel文件(.xlsx),其中一张表包含超过100k+行,跨越350+列,文件大小总计83MB 我使用pandasmethodread_excel()加载文件,但完成这一切平均需要5分钟,占用的内存超过800 MB excel_file = '/path/to/an_excel_file' try: data = pd.read_excel(excel_path, engine='xlrd') process_data_further(data) excep

我有一个相对较大的excel文件(.xlsx),其中一张表包含超过100k+行,跨越350+列,文件大小总计83MB

我使用
pandas
method
read_excel()
加载文件,但完成这一切平均需要5分钟,占用的内存超过800 MB

excel_file = '/path/to/an_excel_file'
try:
    data = pd.read_excel(excel_path, engine='xlrd')
    process_data_further(data)
except FileNotFoundError:
    sys.exit(1)
如上所述,这是可行的,但我发现它相对缓慢且效率低下


知道如何优化文件的导入吗?

编辑:对不起,我的阅读方式不同。你想读XLSX

我希望这可能会有所帮助

***************************以下内容用于阅读CSV****************

您可以在读取chunksize参数时使用它。除了熊猫,你还可以使用达斯克、考拉、沃克斯和莫丁来加速这个过程。我个人更喜欢VOEX,因为它使用笔记本电脑上可用的RAM


请参阅此处的链接进行编辑:对不起,我的阅读方式不同。你想读XLSX

我希望这可能会有所帮助

***************************以下内容用于阅读CSV****************

您可以在读取chunksize参数时使用它。除了熊猫,你还可以使用达斯克、考拉、沃克斯和莫丁来加速这个过程。我个人更喜欢VOEX,因为它使用笔记本电脑上可用的RAM


有关数据已经是数据帧的信息,请参阅此处的链接。为什么要将其附加到空数据框中?请参阅,数据已经是一个数据框。为什么要将其附加到空数据帧中?请参阅,chunksize参数已被弃用,pd.read_excel()不使用该参数,因为XLSX文件格式的性质,在解析过程中将作为一个整体读取到内存中。是的,您是对的。我读的不一样。我通常把我的XLS读成CSV,而不是XLS调用pandas,因为它们仅仅是一张保存为XLS的图纸。对于错误的回答,我深表歉意。chunksize参数已被弃用,并且由于XLSX文件格式的性质,pd.read_excel()未使用该参数,在解析过程中将作为一个整体读取到内存中。是的,您是对的。我读的不一样。我通常把我的XLS读成CSV,而不是XLS调用pandas,因为它们仅仅是一张保存为XLS的图纸。为误导性的回答道歉。