Compression 文件大小为100万兰特

Compression 文件大小为100万兰特,compression,Compression,兰德公司的文件是100万个随机数。它被压缩到415KB…如果不可能压缩随机数据,这怎么可能呢 多谢各位 乔恩·赫顿(Jon Hutton)听起来像是每字节存储一位十进制数字。因此,仅使用256个可能字节值中的10个,就可以在随机数字上获得log(256)/log(10)压缩比,约为2.4。得到2.35(假设“kb”=1024字节)。瞧 由于1024>1000,所以通过将每三个数字编码成十位,可以很容易地得到2.4。然后,您可以将1000000位十进制数字编码为416667字节,或406.9kib

兰德公司的文件是100万个随机数。它被压缩到415KB…如果不可能压缩随机数据,这怎么可能呢

多谢各位


乔恩·赫顿(Jon Hutton)

听起来像是每字节存储一位十进制数字。因此,仅使用256个可能字节值中的10个,就可以在随机数字上获得log(256)/log(10)压缩比,约为2.4。得到2.35(假设“kb”=1024字节)。瞧

由于1024>1000,所以通过将每三个数字编码成十位,可以很容易地得到2.4。然后,您可以将1000000位十进制数字编码为416667字节,或406.9kib


更困难的是,使用类似这样的代码,您可以将其编码为一个巨大的百万位二进制整数,需要415242字节,或405.5 KiB。这和随机十进制数字一样好。

听起来它们是以每字节一个十进制数字的形式存储的。因此,仅使用256个可能字节值中的10个,就可以在随机数字上获得log(256)/log(10)压缩比,约为2.4。得到2.35(假设“kb”=1024字节)。瞧

由于1024>1000,所以通过将每三个数字编码成十位,可以很容易地得到2.4。然后,您可以将1000000位十进制数字编码为416667字节,或406.9kib


更困难的是,使用类似这样的代码,您可以将其编码为一个巨大的百万位二进制整数,需要415242字节,或405.5 KiB。这和随机十进制数字一样好。

你很可能在谈论1955年公布的著名测试数据。所以它是数字,而不是数字,马克已经猜到了,这就是为什么二进制版本只有415241字节。也可以看到有一个链接到

请注意,最终结果(二进制文件)在不知道的情况下是不可压缩的-尽管文件中有一些小的冗余,这些冗余来自于文件的创建方式-有关更多详细信息,请参阅:

百万随机数字文件中可能存在其他偏差 我几年前在comp.compression中讨论过。数据是 最初由噪声驱动的5位计数器采样生成 振荡器,用于生产一套20000张50位数的穿孔卡片 每个但是连续的数字之间有一定的相关性,所以 他们所做的是将模10的相邻卡片对相加,生成一个 新发行的一套卡片。这就是为什么 列是偶数。每一张原始卡片被计数两次


你很可能在谈论1955年公布的著名测试数据。所以它是数字,而不是数字,马克已经猜到了,这就是为什么二进制版本只有415241字节。也可以看到有一个链接到

请注意,最终结果(二进制文件)在不知道的情况下是不可压缩的-尽管文件中有一些小的冗余,这些冗余来自于文件的创建方式-有关更多详细信息,请参阅:

百万随机数字文件中可能存在其他偏差 我几年前在comp.compression中讨论过。数据是 最初由噪声驱动的5位计数器采样生成 振荡器,用于生产一套20000张50位数的穿孔卡片 每个但是连续的数字之间有一定的相关性,所以 他们所做的是将模10的相邻卡片对相加,生成一个 新发行的一套卡片。这就是为什么 列是偶数。每一张原始卡片被计数两次


你有更多的细节吗?从你所写的内容来看,它仍然可以描述一个以逗号分隔的十进制数的文件被压缩的情况(显然是微不足道的)。实际上,如果你有一个填充了随机十进制数的文件,预期的压缩比非常接近你的观察结果。。那有点可疑谢谢你的回答,哈罗德。对于我来说,一个有一百万个随机数字的word pad文档如何使用winrar压缩到415241KB是毫无意义的。原始文件大小为1.37mb。我不是一个程序员,但对二进制和压缩有基本的理解。基本问题是,它在存储的表示形式上不是随机的,当然是字节。每字节存储一个十进制数字,即使数字是随机的,也可以压缩大约2.4倍,因为256个可能值中只有10个被使用。但是,只要将其重新编码为更合适的表示形式,也会产生同样的效果。你有没有更多的细节,从你所写的内容来看,它仍然可以描述一个以逗号分隔的十进制数的文件被压缩的情况(显然是微不足道的)。实际上,如果你有一个填充了随机十进制数的文件,预期的压缩比非常接近您的观察结果。。那有点可疑谢谢你的回答,哈罗德。对于我来说,一个有一百万个随机数字的word pad文档如何使用winrar压缩到415241KB是毫无意义的。原始文件大小为1.37mb。我不是一个程序员,但对二进制和压缩有基本的理解。基本问题是,它在存储的表示形式上不是随机的,当然是字节。每字节存储一个十进制数字,即使数字是随机的,也可以压缩大约2.4倍,因为256个可能值中只有10个被使用。但是,只要把它重新编码成一个更合适的表示形式,就可以做同样的事情。很好的回答,对于这个非程序员来说很容易理解。也许你平均可以用10位编码3位。零真的很难。它看起来更像你在GMP的第二个想法中提到的。不理解你的评论。零是困难的?您可以将3位十进制数字编码为10位周期。不仅仅是平均水平。每次都是。首先感谢你没有嘲笑我的无知。我不确定三个零的编码方式如何不同于两个零和一个使用10位0的9