Compression 文件大小为100万兰特_Compression

Compression 文件大小为100万兰特

compression

Compression 文件大小为100万兰特,compression,Compression,兰德公司的文件是100万个随机数。它被压缩到415KB…如果不可能压缩随机数据，这怎么可能呢多谢各位乔恩·赫顿（Jon Hutton）听起来像是每字节存储一位十进制数字。因此，仅使用256个可能字节值中的10个，就可以在随机数字上获得log（256）/log（10）压缩比，约为2.4。得到2.35（假设“kb”=1024字节）。瞧由于1024>1000，所以通过将每三个数字编码成十位，可以很容易地得到2.4。然后，您可以将1000000位十进制数字编码为416667字节，或406.9kib

兰德公司的文件是100万个随机数。它被压缩到415KB…如果不可能压缩随机数据，这怎么可能呢

多谢各位

乔恩·赫顿（Jon Hutton）

听起来像是每字节存储一位十进制数字。因此，仅使用256个可能字节值中的10个，就可以在随机数字上获得log（256）/log（10）压缩比，约为2.4。得到2.35（假设“kb”=1024字节）。瞧

由于1024>1000，所以通过将每三个数字编码成十位，可以很容易地得到2.4。然后，您可以将1000000位十进制数字编码为416667字节，或406.9kib

更困难的是，使用类似这样的代码，您可以将其编码为一个巨大的百万位二进制整数，需要415242字节，或405.5 KiB。这和随机十进制数字一样好。

听起来它们是以每字节一个十进制数字的形式存储的。因此，仅使用256个可能字节值中的10个，就可以在随机数字上获得log（256）/log（10）压缩比，约为2.4。得到2.35（假设“kb”=1024字节）。瞧

由于1024>1000，所以通过将每三个数字编码成十位，可以很容易地得到2.4。然后，您可以将1000000位十进制数字编码为416667字节，或406.9kib

更困难的是，使用类似这样的代码，您可以将其编码为一个巨大的百万位二进制整数，需要415242字节，或405.5 KiB。这和随机十进制数字一样好。

你很可能在谈论1955年公布的著名测试数据。所以它是数字，而不是数字，马克已经猜到了，这就是为什么二进制版本只有415241字节。也可以看到有一个链接到

请注意，最终结果（二进制文件）在不知道的情况下是不可压缩的-尽管文件中有一些小的冗余，这些冗余来自于文件的创建方式-有关更多详细信息，请参阅：

百万随机数字文件中可能存在其他偏差我几年前在comp.compression中讨论过。数据是最初由噪声驱动的5位计数器采样生成振荡器，用于生产一套20000张50位数的穿孔卡片每个但是连续的数字之间有一定的相关性，所以他们所做的是将模10的相邻卡片对相加，生成一个新发行的一套卡片。这就是为什么列是偶数。每一张原始卡片被计数两次

你有更多的细节吗？从你所写的内容来看，它仍然可以描述一个以逗号分隔的十进制数的文件被压缩的情况（显然是微不足道的）。实际上，如果你有一个填充了随机十进制数的文件，预期的压缩比非常接近你的观察结果。。那有点可疑谢谢你的回答，哈罗德。对于我来说，一个有一百万个随机数字的word pad文档如何使用winrar压缩到415241KB是毫无意义的。原始文件大小为1.37mb。我不是一个程序员，但对二进制和压缩有基本的理解。基本问题是，它在存储的表示形式上不是随机的，当然是字节。每字节存储一个十进制数字，即使数字是随机的，也可以压缩大约2.4倍，因为256个可能值中只有10个被使用。但是，只要将其重新编码为更合适的表示形式，也会产生同样的效果。你有没有更多的细节，从你所写的内容来看，它仍然可以描述一个以逗号分隔的十进制数的文件被压缩的情况（显然是微不足道的）。实际上，如果你有一个填充了随机十进制数的文件，预期的压缩比非常接近您的观察结果。。那有点可疑谢谢你的回答，哈罗德。对于我来说，一个有一百万个随机数字的word pad文档如何使用winrar压缩到415241KB是毫无意义的。原始文件大小为1.37mb。我不是一个程序员，但对二进制和压缩有基本的理解。基本问题是，它在存储的表示形式上不是随机的，当然是字节。每字节存储一个十进制数字，即使数字是随机的，也可以压缩大约2.4倍，因为256个可能值中只有10个被使用。但是，只要把它重新编码成一个更合适的表示形式，就可以做同样的事情。很好的回答，对于这个非程序员来说很容易理解。也许你平均可以用10位编码3位。零真的很难。它看起来更像你在GMP的第二个想法中提到的。不理解你的评论。零是困难的？您可以将3位十进制数字编码为10位周期。不仅仅是平均水平。每次都是。首先感谢你没有嘲笑我的无知。我不确定三个零的编码方式如何不同于两个零和一个使用10位0的9