Python 将追加行存储到存储在磁盘中的数据帧中的有效方法。

Python 将追加行存储到存储在磁盘中的数据帧中的有效方法。,python,pandas,dataframe,Python,Pandas,Dataframe,我对PandasDataframe非常陌生 我在磁盘上有大约43000个文档,我逐个处理每个文档。在处理过程中,我从文档中提取实体和关键字。我将文档id和实体频率存储在数据框中。总实体数很有可能跨越100万个构建数据帧,达到43000*10,00000的大小。因此,我无法将整个数据帧存储在内存中 我需要一种有效的方法将数据帧存储在磁盘中,并将每一行的dic_id和entity freq逐个附加到数据帧中 我的数据框看起来像: India America Sam Ne

我对PandasDataframe非常陌生

我在磁盘上有大约43000个文档,我逐个处理每个文档。在处理过程中,我从文档中提取实体和关键字。我将文档id和实体频率存储在数据框中。总实体数很有可能跨越100万个构建数据帧,达到43000*10,00000的大小。因此,我无法将整个数据帧存储在内存中

我需要一种有效的方法将数据帧存储在磁盘中,并将每一行的dic_id和entity freq逐个附加到数据帧中

我的数据框看起来像:

         India   America   Sam   New York    Las Vegas    Football .............
doc1       3        1       6      1            0             0    ..........
doc2       0        0       0      0            0             2    ..........
我想要达到的目标:

for documents in disk:
    read document  (Example: doc1, doc2....)
    find entities and their frequency (Example: India, America , New York, Las Vegas....)
    insert the entities into a dataframe stored in the disk.

很可能,您的数据帧非常适合稀疏存储。探索稀疏矩阵?谢谢John,我知道scipy稀疏矩阵,但对从稀疏矩阵中追加或删除行不太了解。虽然作为一个起点数据帧就足够了,但我也认为拥有一个数据帧对于调试来说是很容易的。。