Python 如何有效地保存一个大熊猫。数据帧,百万甚至十亿行,没有错误?

Python 如何有效地保存一个大熊猫。数据帧,百万甚至十亿行,没有错误?,python,pandas,csv,hdf5,Python,Pandas,Csv,Hdf5,如何以良好的读取速度将大数据帧保存到磁盘 我有一个大的数据集(youtube 8M),现在我已经提取了原始数据进行dict。我想将其保存为数据帧,以便使用pytorch数据集进行索引读取 具体来说,验证数据如下所示: INT64索引:1112356个条目,0到1112355 数据列(共4列): id 1112356非空对象 mean_rgb 1112356非空对象 mean_audio 1112356非空对象 标签1112356非空对象 数据类型:对象(4) 内存使用率:42.4+MB 数据

如何以良好的读取速度将大数据帧保存到磁盘

我有一个大的数据集(youtube 8M),现在我已经提取了原始数据进行dict。我想将其保存为数据帧,以便使用pytorch数据集进行索引读取

具体来说,验证数据如下所示:


INT64索引:1112356个条目,0到1112355
数据列(共4列):
id 1112356非空对象
mean_rgb 1112356非空对象
mean_audio 1112356非空对象
标签1112356非空对象
数据类型:对象(4)
内存使用率:42.4+MB
数据类型如下所示:

id:str
平均值:numpy.ndarray
平均音频:numpy.ndarray
标签:numpy.ndarray
我想把它保存到磁盘上,以便有效地读取它。 首先,我将
hdf5
pd.to_hdf()
一起使用,但得到了一个
溢出错误

然后,我转到
csv
,并成功保存。然而,当我从这个
.csv
读取数据时,我得到了一个损坏的
数据框。其中,行数远远大于1112356

最后,我用
chunksize=1000
dataframe
保存到
csv
,读取的结果仍然与
2842137
行以及更混乱的内部数据错误

RangeIndex: 2842137 entries, 0 to 2842136
Data columns (total 1 columns):
widwmean_rgbwmean_audiowlabel    object
dtypes: object(1)
memory usage: 21.7+ MB


也许这个链接可以帮助你:
feather
也许可以帮助也许这个链接可以帮助你:
feather
也许可以帮助你