Python 对于混合类型数据,熊猫中数据存储的最佳选择是什么?

Python 对于混合类型数据,熊猫中数据存储的最佳选择是什么?,python,pandas,storage,Python,Pandas,Storage,我正在处理一个存储为ndjson的大型数据集,其中每一行数据都是一个json对象,我逐行阅读,并使用pandas json\u normalise()将每个数据集展平,并将其保存在一个列表中作为一个数据帧,然后我将此列表合并 整个过程在一台高性能机器上需要2个小时,所以我想保存结果,这样我就不必重复了。然而,我尝试过使用to_hdfs和to_parquet,但都失败了,我相信这是因为大多数列都有混合数据类型,其中可能有字符串,浮点和整数是混乱数据采集系统不可避免的结果 在清理这些未经处理的数据之

我正在处理一个存储为
ndjson
的大型数据集,其中每一行数据都是一个json对象,我逐行阅读,并使用
pandas json\u normalise()
将每个数据集展平,并将其保存在一个列表中作为一个数据帧,然后我将此列表合并

整个过程在一台高性能机器上需要2个小时,所以我想保存结果,这样我就不必重复了。然而,我尝试过使用to_hdfs和to_parquet,但都失败了,我相信这是因为大多数列都有混合数据类型,其中可能有字符串,浮点和整数是混乱数据采集系统不可避免的结果


在清理这些未经处理的数据之前,最合适的存储方式是什么?

我认为这里应该有助于
pickle

对于写入
DataFrame/Series
使用

供回读使用