Python 将大型稀疏数据框保存到excel
我有一个包含477k行和530列的数据帧,数据类型不同。当我检查pandas中的内存使用情况时,请使用:Python 将大型稀疏数据框保存到excel,python,excel,pandas,dataframe,Python,Excel,Pandas,Dataframe,我有一个包含477k行和530列的数据帧,数据类型不同。当我检查pandas中的内存使用情况时,请使用: df.memory_usage().sum() 它给出了以GB为单位的大小。因此,我使用以下方法将数据帧转换为稀疏数据帧: df.to_sparse() 现在,内存使用量减少到80MB。但是,当我将其导出到excel时,磁盘上的文件大小约为500MB。文件将打开,但打开和浏览数据需要花费很长时间。当我在excel中选择一列时,它应该给我该列中记录数的计数,在这种情况下,它给我的计数是数据
df.memory_usage().sum()
它给出了以GB为单位的大小。因此,我使用以下方法将数据帧转换为稀疏数据帧:
df.to_sparse()
现在,内存使用量减少到80MB。但是,当我将其导出到excel时,磁盘上的文件大小约为500MB。文件将打开,但打开和浏览数据需要花费很长时间。当我在excel中选择一列时,它应该给我该列中记录数的计数,在这种情况下,它给我的计数是数据帧的长度(即477k行),但实际上,该列大约有15000条记录填充了数据,其余都是空白的(所有列都是相同的)。我假设在将数据导出到excel时,excel也在空白单元格中填充数据。有没有办法解决这个问题