Python（或C）中的高效内存字符串到字符串映射_Python_Data Structures_Hash_Map_Memory Efficient

Python（或C）中的高效内存字符串到字符串映射

python data-structures hash map

Python（或C）中的高效内存字符串到字符串映射,python,data-structures,hash,map,memory-efficient,Python,Data Structures,Hash,Map,Memory Efficient,我需要一个内存高效的数据结构来存储大约一百万个键-值对，其中键是大约80字节的字符串，值是大约200字节的字符串，总键和值大小大约为280MB。我还需要按键高效地查找值，最好是哈希映射。内存开销应尽可能小，例如，对于280MB的有用数据，数据结构不应使用超过300MB的虚拟内存（包括malloc（）开销和其他所有开销）。使用模式如下：我们从一个空的数据结构开始，逐步填充它，从不更改键，也从不更改值的长度。另外，数据结构可能支持更改值的长度，代价是100%的值开销（这意味着对于x值字节，x字节可能

我需要一个内存高效的数据结构来存储大约一百万个键-值对，其中键是大约80字节的字符串，值是大约200字节的字符串，总键和值大小大约为280MB。我还需要按键高效地查找值，最好是哈希映射。内存开销应尽可能小，例如，对于280MB的有用数据，数据结构不应使用超过300MB的虚拟内存（包括

malloc（）

开销和其他所有开销）。使用模式如下：我们从一个空的数据结构开始，逐步填充它，从不更改键，也从不更改值的长度。另外，数据结构可能支持更改值的长度，代价是100%的值开销（这意味着对于x值字节，x字节可能会临时浪费在未使用的缓冲区空间中）

我需要一个纯Python模块，或者一个内置Python模块，或者一个最好带有（C）Python绑定的C实现。我更希望能够将整个数据结构序列化到磁盘，并非常快速地将其读回

为了证明这样小的开销是可能的，我创建了一个简单的设计，包含125万个元素的哈希表，其中包含指向1MB数据块的4字节指针，数据块包含如下键和值长度。这种设计有一个重要的限制：它不允许在不浪费内存区域的情况下删除或更改对。根据我对每个280字节的一百万个键值对的计算，开销小于3.6%（1080000字节）。上面的限制更宽泛，它们允许20000字节的开销

我刚刚发现，它提供了快速访问和内存高效的数据打包。我必须更仔细地检查它是否适合我的需要。

您可以使用struct module打包二进制数据，并在需要时解包。您可以使用这种方法实现内存效率高的存储。我想进入会很痛苦

struct {
    char value[80];
    char *data;
} key;

struct link {
    char *data;
    link *next;
}

struct {
    char value[80];
    link *data;
} key;

sha1

sha1

from random import choice
from string import letters
from hashlib import sha1

def keygen(length):
    return "".join(choice(letters) for _ in xrange(length))

def gentestdata(n=1000*1000):
    # return dict((sha1(keygen(80)).digest(), keygen(200)) for _ in xrange(n))
    d = {}
    for _ in xrange(n):
        key = sha1(keygen(80)).digest()
        assert key not in d
        value = keygen(200)
        d[key] = value
    return d

if __name__ == '__main__':
    d = gentestdata()

2010-10-26 14:26:02 hbrown@hbrown-ubuntu-wks:~$ ps aux | grep python
[...]
hbrown   12082 78.2  7.5 307420 303128 pts/1   S+   14:20   4:47 python

gzip

cPickle.dump(mydict, "myfile.pkl")

mydict = cPickle.load("myfile.pkl")

cPickle.dump(mydict, "myfile.pkl")

mydict = cPickle.load("myfile.pkl")

shelve