Data structures 将大型数据集摘要写入磁盘
我有一个很大的数据集,从中我得到了一组不同粗糙程度的层次总结。我想将这些摘要缓存在磁盘上的一个文件中,每个摘要都可以通过其偏移量从文件中检索。初始摘要是通过从初始数据集中获取小数据块(约256字节)并从每个数据块中提取最大值得出的。然后,通过取前一个摘要中每对值的最大值,导出后续摘要。以下(初步)说明有望澄清:Data structures 将大型数据集摘要写入磁盘,data-structures,file-io,tree,dataset,Data Structures,File Io,Tree,Dataset,我有一个很大的数据集,从中我得到了一组不同粗糙程度的层次总结。我想将这些摘要缓存在磁盘上的一个文件中,每个摘要都可以通过其偏移量从文件中检索。初始摘要是通过从初始数据集中获取小数据块(约256字节)并从每个数据块中提取最大值得出的。然后,通过取前一个摘要中每对值的最大值,导出后续摘要。以下(初步)说明有望澄清: 251 18 5 91 11 17 54 16 9 31 201 148 173 214 66 43 ;;Initial data-set (chunked) 251
251 18 5 91 11 17 54 16 9 31 201 148 173 214 66 43 ;;Initial data-set (chunked)
251 54 201 214 ;;Summary 0
251 214 ;;Summary 1
251 ;;Summary 2
我试图实现的是一种派生(然后缓存)这些摘要的方法,这些摘要可以扩展到大型数据集,例如4GB级。速度不是一个特别的问题,但空间是:因为对于这种大小的数据集,即使摘要也可能太大而无法在内存中处理。我一直在尝试多种方法:
Christopher好的,经过进一步的研究,我最终选择了B-树,最上面的几层缓存在主内存中。现在可以工作了 克里斯