Performance 哈斯克尔的速度也比较慢_Performance_Haskell_Parallel Processing_Threadscope

Performance 哈斯克尔的速度也比较慢

performance haskell parallel-processing

Performance 哈斯克尔的速度也比较慢,performance,haskell,parallel-processing,threadscope,Performance,Haskell,Parallel Processing,Threadscope,我一直在尝试并行化Haskell程序。令我惊讶的是，我的大多数尝试都使我的示例运行速度变慢，因此我决定深入研究Threadscope并开始学习教程在示例程序中，介绍了sudoku3，它是一个良好并行化的Haskell程序的示例。所以我按照教程中的描述编译了它 ghc -O2 sudoku3.hs -threaded -rtsopts -eventlog 并且（与教程中描述的不同）测量了有并行性和没有并行性时的速度。结果令人惊讶： $ ./sudoku3 sudoku17.1000.txt +

我一直在尝试并行化Haskell程序。令我惊讶的是，我的大多数尝试都使我的示例运行速度变慢，因此我决定深入研究Threadscope并开始学习教程

在示例程序中，介绍了sudoku3，它是一个良好并行化的Haskell程序的示例。所以我按照教程中的描述编译了它

ghc -O2 sudoku3.hs -threaded -rtsopts -eventlog

并且（与教程中描述的不同）测量了有并行性和没有并行性时的速度。结果令人惊讶：

$ ./sudoku3 sudoku17.1000.txt +RTS -s -N1
   1,181,490,684 bytes allocated in the heap
      13,247,408 bytes copied during GC
       1,094,432 bytes maximum residency (5 sample(s))
          35,556 bytes maximum slop
               3 MB total memory in use (0 MB lost due to fragmentation)

                                    Tot time (elapsed)  Avg pause  Max pause
  Gen  0      2282 colls,     0 par    0.07s    0.08s     0.0000s    0.0061s
  Gen  1         5 colls,     0 par    0.01s    0.01s     0.0012s    0.0044s

  TASKS: 3 (1 bound, 2 peak workers (2 total), using -N1)

  SPARKS: 1000 (0 converted, 0 overflowed, 0 dud, 0 GC'd, 1000 fizzled)

  INIT    time    0.00s  (  0.00s elapsed)
  MUT     time    2.51s  (  2.90s elapsed)
  GC      time    0.08s  (  0.08s elapsed)
  EXIT    time    0.00s  (  0.00s elapsed)
  Total   time    2.59s  (  2.98s elapsed)

  Alloc rate    469,886,714 bytes per MUT second

  Productivity  97.0% of total user, 84.3% of total elapsed

gc_alloc_block_sync: 0
whitehole_spin: 0
gen[0].sync: 0
gen[1].sync: 0

这里是两个核心的运行：

$ ./sudoku3 sudoku17.1000.txt +RTS -s -N2
   1,207,033,704 bytes allocated in the heap
      23,422,808 bytes copied during GC
       1,066,716 bytes maximum residency (22 sample(s))
          47,524 bytes maximum slop
               5 MB total memory in use (0 MB lost due to fragmentation)

                                    Tot time (elapsed)  Avg pause  Max pause
  Gen  0      1488 colls,  1488 par    0.40s    0.40s     0.0003s    0.0147s
  Gen  1        22 colls,    21 par    0.07s    0.06s     0.0026s    0.0087s

  Parallel GC work balance: 39.57% (serial 0%, perfect 100%)

  TASKS: 4 (1 bound, 3 peak workers (3 total), using -N2)

  SPARKS: 1000 (968 converted, 0 overflowed, 0 dud, 0 GC'd, 32 fizzled)

  INIT    time    0.00s  (  0.00s elapsed)
  MUT     time    3.45s  (  2.96s elapsed)
  GC      time    0.47s  (  0.45s elapsed)
  EXIT    time    0.00s  (  0.00s elapsed)
  Total   time    3.93s  (  3.41s elapsed)

  Alloc rate    349,389,354 bytes per MUT second

  Productivity  88.0% of total user, 101.4% of total elapsed

gc_alloc_block_sync: 913
whitehole_spin: 0
gen[0].sync: 25
gen[1].sync: 0

令人惊讶的是，使用两个内核的运行速度较慢。为什么会这样

我的GHC版本是7.6.3

操作系统：Debian Jessie Linux/GNU i386（i686）

我刚刚又做了一次测试，正如预期的那样，并行版本更快

事实证明，当CPU 100%忙于转换视频时，测量性能是一个坏主意。

并行化（分配任务、收集结果）会带来一些开销，也许您需要一个需要更多计算才能获得好处的问题实例？我无法重现

-N2

在我的机器上的速度几乎是原来的两倍。@mvw这是我一开始的想法，但由于我使用的示例是一个专门用来展示并行化好处的示例，如果它不起作用，我会感到惊讶。你确定你是在比较挂钟时间而不是CPU时间吗？在尝试复制时，我错误地查看了CPU时间。使用*nix

time

命令应该会给出稍微清晰的英语结果。编辑：似乎

-s

也给出了墙上的时钟时间，您的输出确实显示

-N2

较慢，奇怪。无法在Linux x86_64上使用ghc 7.8.x进行复制。您可以使用-s RTS选项（

/foo+RTS-s

）测量Haskell程序。它同时测量墙上的时钟时间和CPU时间。由于我粘贴了原始结果，您可以同时查找它们。（我猜经过的时间就是挂钟的时间。）——————————嗯，是的。这样就可以了。以最低的CPU+磁盘优先级运行视频转换之类的任务是个好主意。我通常调用

ionice-c3 schedtool-D-n15-e命令args

。