Performance Haskell中具有有效异或和位计数的压缩大位向量

Performance Haskell中具有有效异或和位计数的压缩大位向量,performance,haskell,vector,bitarray,bitvector,Performance,Haskell,Vector,Bitarray,Bitvector,我正在寻找一种高效(在空间和时间上)的数据类型,它可以容纳384位向量,并支持高效的异或和“位计数”(位数设置为1)操作 下面,请找到我的演示程序。我需要的操作都在SOQuestionOpstype类中,我已经为和实现了它。尤其是后者似乎很完美,因为它有一个zipWords操作,应该允许我逐字而不是逐位进行“位计数”和异或运算。它还声称存储压缩的位(每个字节8位) 因此,让我们计算出最佳情况下的数字:lotsoffecs不需要分配太多,因为它只是同一个向量的10000000倍initialVec

我正在寻找一种高效(在空间和时间上)的数据类型,它可以容纳384位向量,并支持高效的异或和“位计数”(位数设置为1)操作

下面,请找到我的演示程序。我需要的操作都在
SOQuestionOps
type类中,我已经为和实现了它。尤其是后者似乎很完美,因为它有一个
zipWords
操作,应该允许我逐字而不是逐位进行“位计数”和异或运算。它还声称存储压缩的位(每个字节8位)

因此,让我们计算出最佳情况下的数字:
lotsoffecs
不需要分配太多,因为它只是同一个向量的10000000倍
initialVec
。foldl显然会在每次折叠操作中创建其中一个向量,因此它应该创建10000000位向量。位计数应该创建除10000000
Int
s以外的任何内容。因此,在最好的情况下,我的程序应该使用很少的(恒定的)内存,并且总分配应该大约为10000000*sizeof(位向量)+10000000*sizeof(int)=52000000字节

好的,让我们运行
Natural
的程序:

让我们制作
initialVec::Natural
,用

ghc --make -rtsopts -O3 MemStuff.hs
结果(这是GHC 7.10.1中的结果):

它在堆中分配了
1280306112字节
,这是预期数字的大概值(2x)。顺便说一句,在GHC 7.8上分配了353480272096字节,并运行了绝对时间,因为
popCount
在GHC 7.8的
Natural
上效率不高

编辑:我稍微更改了代码。在原始版本中,折叠中每隔一个向量
0
。这为
Natural
版本提供了更好的分配数据。我改变了它,使向量在不同的表示之间交替(设置了许多位),现在我们看到了预期的
2x
分配。这是
Natural
(和
Integer
)的另一个缺点:分配率取决于值

但也许我们可以做得更好,让我们试试密集的
Data.Vector.unbox.Bit

这就是
initialVec::BV.Vector BV.Bit
,并使用相同的选项重新编译和运行

$ time ./MemStuff +RTS -sstderr
folded bit count: 192, sum: 1920000000
75,120,306,536 bytes allocated in the heap
54,914,640 bytes copied during GC
80,107,368 bytes maximum residency (2 sample(s))
664,128 bytes maximum slop
78 MB total memory in use (0 MB lost due to fragmentation)

Tot time (elapsed)  Avg pause  Max pause
Gen  0     145985 colls,     0 par    0.543s   0.627s     0.0000s    0.0577s
Gen  1         2 colls,     0 par    0.065s   0.070s     0.0351s    0.0686s

INIT    time    0.000s  (  0.000s elapsed)
MUT     time   27.679s  ( 28.228s elapsed)
GC      time    0.608s  (  0.698s elapsed)
EXIT    time    0.000s  (  0.002s elapsed)
Total   time   28.288s  ( 28.928s elapsed)

%GC     time       2.1%  (2.4% elapsed)

Alloc rate    2,714,015,097 bytes per MUT second

Productivity  97.8% of total user, 95.7% of total elapsed


real    0m28.944s
user    0m28.290s
sys 0m0.456s
这非常缓慢,大约是分配的100倍:(

好的,然后让我们重新编译和分析这两个运行(
ghc-make-rtsopts-O3-prof-auto-all-caf-all-fforce-recomp MemStuff.hs
):

Natural
版本:

COST CENTRE         MODULE  %time %alloc
main.xorFolded      Main     51.7   76.0
main.sumBitCounts.\ Main     25.4   16.0
main.sumBitCounts   Main     12.1    0.0
main.lotsOfVecs     Main     10.4    8.0
COST CENTRE         MODULE  %time %alloc
soqoXOR             Main     96.7   99.3
main.sumBitCounts.\ Main      1.9    0.2
Data.Vector.unbox.Bit版本:

COST CENTRE         MODULE  %time %alloc
main.xorFolded      Main     51.7   76.0
main.sumBitCounts.\ Main     25.4   16.0
main.sumBitCounts   Main     12.1    0.0
main.lotsOfVecs     Main     10.4    8.0
COST CENTRE         MODULE  %time %alloc
soqoXOR             Main     96.7   99.3
main.sumBitCounts.\ Main      1.9    0.2

Natural
真的是固定大小位向量的最佳选择吗?GHC 6.8呢?还有什么更好的方法可以实现我的
SOQuestionOps
类型类吗?

看看
加密包中的
数据.LargeWord
模块:


它为各种大小的大字提供了
实例,例如96到256位。

我会用6个未打包的
字64
创建一个特殊用途的数据类型,然后在这些字上使用原语操作。嗨@augustss,谢谢!我考虑过了,但最后没有这样做,因为我有很多unit&QuickCheck个测试,可以快速解决向量相对较短的子问题。显然,我仍然可以使用大向量类型,并且在测试中只使用第一个
n
位,但我认为可能有一个很好的解包表示法,它可以在不考虑位数的情况下工作。另外:对于我的程序来说e问题是,位向量的长度不限于384:(。因此,我的程序只有在输入数据“足够小”时才能工作.
Natural
Integer
在这方面非常好,因为它们使用了经过优化的GMP原语。在bitvector版本中,大部分时间都花在
soqoXOR
上,这是使用
Data.Vector.unbox.Bit.zipWords
实现的。我想知道这是否能解释问题,以及是否使用直接在
ST
中使用可变版本会有所帮助。@duplode谢谢!在我的实际使用案例中,我需要生成的每个向量。因此,代码对我来说并不太糟糕:
xs我想知道为什么
Crypto
不仅仅依赖于一个只有
LargeWord
模块的包,并且是由同一作者编写的。另请参阅m
设置封面
,这与此类似,但使用严格的字段。如果效率是一个问题,人们可能也想将其解包。