Python 熊猫数据帧消耗太多内存。还有别的选择吗?

Python 熊猫数据帧消耗太多内存。还有别的选择吗?,python,pandas,dataframe,memory,Python,Pandas,Dataframe,Memory,尽管遵循了减少Dataframe对象内存使用的最佳实践,但我仍然发现内存使用率太高。我尝试过分块、转换数据类型、读取更少的数据……等等 例如,尽管我正在读取的CSV文件大2.7GB,但当我使用pd.read_CSV时,task manager显示使用了25GB的RAM。我曾尝试将对象转换为类别,但有些列不适合转换,因此对象数据类型是我唯一的选择 有人建议如何减少内存使用,或者为低内存消耗的数据帧对象提供替代python库吗?我已经尝试过PySpark,但是每次我想运行一个简单的show语句时,懒

尽管遵循了减少Dataframe对象内存使用的最佳实践,但我仍然发现内存使用率太高。我尝试过分块、转换数据类型、读取更少的数据……等等

例如,尽管我正在读取的CSV文件大2.7GB,但当我使用pd.read_CSV时,task manager显示使用了25GB的RAM。我曾尝试将对象转换为类别,但有些列不适合转换,因此对象数据类型是我唯一的选择

有人建议如何减少内存使用,或者为低内存消耗的数据帧对象提供替代python库吗?我已经尝试过PySpark,但是每次我想运行一个简单的show语句时,懒惰的评估都会让我感到痛苦。

为什么要使用:

Dask数据帧用于通常需要熊猫的情况, 通常情况下,由于数据大小或计算速度的原因,熊猫会失败

对于适合RAM的数据,Pandas通常可以更快、更容易地处理 使用Dask数据帧以外的数据。虽然“大数据”工具可能令人兴奋,但它们 几乎总是比正常的数据工具更糟糕 合适

熊猫的替代品:或