Compression 无损压缩理论,压缩比是否基于图案大小和重复次数?

Compression 无损压缩理论,压缩比是否基于图案大小和重复次数?,compression,binary-data,huffman-code,lzw,lossless,Compression,Binary Data,Huffman Code,Lzw,Lossless,我想知道以下哪种情况将在无损算法应用于具有重复数据的二进制数据时实现最高的比率 假设压缩比取决于模式,对吗 大小 多次重复 例如,二进制数据: 10 10图案(10)尺寸2,图案(10)重复8 1001 1001 1001 1001图案(1001)尺寸4,图案(1001)重复4 0000000 11111111图案(0)尺寸1,图案(0)重复8次;图案(1)尺寸1,图案(1)重复8次; 或 0000000 11111111图案(0000000)大小8,图案(0000000)重复8;图案(1111

我想知道以下哪种情况将在无损算法应用于具有重复数据的二进制数据时实现最高的比率

假设压缩比取决于模式,对吗

  • 大小
  • 多次重复
  • 例如,二进制数据:

    10 10图案(10)尺寸2,图案(10)重复8

    1001 1001 1001 1001图案(1001)尺寸4,图案(1001)重复4

    0000000 11111111图案(0)尺寸1,图案(0)重复8次;图案(1)尺寸1,图案(1)重复8次; 或 0000000 11111111图案(0000000)大小8,图案(0000000)重复8;图案(11111111)尺寸8,图案(11111111)重复1

    以上哪一项实现了最高和最低的压缩比


    提前感谢。

    这些都是野外不太可能看到的序列。问题的重点是什么

    普通压缩器是面向字节的。因此,任何导致相同字节重复的模式都将提供最高的压缩比。例如,在放气限值中1032:1。短模式的其他简单重复将获得非常高的压缩比。例如,对于两个或三个重复字节的模式,再次使用1032:1进行deflate


    在这些荒谬的极端情况下,压缩的限制是压缩格式的函数,而不是数据的函数。

    如果算法是智能的,前两个示例应该以相同的方式压缩。(它们是等效的——第一个模式也可以被视为大小为4且重复4次的模式。)更一般地说,任何长度为N且重复M次的模式都可以被视为长度为N*C且重复M/C次的模式,对于某些常数C。压缩算法非常不同。肯定有几十种LZ风格的算法。你为什么这么问?大家好!谢谢你的回复。我问这个问题的原因是因为我有一个在无损压缩之前应用算法层的想法。这只是一个概念,严格的测试尚未完成,更不用说原型了。我很好奇LZW和哈夫曼无损算法的输入,以确保最大压缩。我有一个关于如何应用算法及其限制的流程图,如下所示:i46.tinypic.com/351vmll.png您诚实的意见?请随意拨通holesHi所有!谢谢你的回复。我问这个问题的原因是因为我有一个在无损压缩之前应用算法层的想法。这只是一个概念,严格的测试尚未完成,更不用说原型了。我很好奇LZW和哈夫曼无损算法的输入,以确保最大压缩。我有一个我想如何应用算法的流程图,它的限制如下:你诚实的意见?别客气,你有一些研究要做。LZW已经过时,哈夫曼编码只是其他冗余建模方案的一部分。了解LZ77、Burrows-Wheeler变换、部分匹配预测和算术编码。您还可以看看XML-WRT,它是一种用于改进后续无损压缩的文本预处理器。