Compression 哪些文件在压缩后不会减小其大小

Compression 哪些文件在压缩后不会减小其大小,compression,Compression,我已经编写了一个用于压缩的java程序。我压缩了一些文本文件。压缩后的文件大小减小。但当我试图压缩PDF文件时。压缩后,我看不到文件大小有任何变化 所以我想知道哪些文件在压缩后不会减小其大小 谢谢 Sunil Kumar Sahoo压缩后的文件在压缩后不会减小其大小。通常不能压缩已压缩的数据。您甚至可能会得到比输入更大的压缩大小。jpeg/gif/avi/mpeg/mp3和已经压缩的文件在压缩后不会有太大变化。您可能会看到文件大小略有减少。媒体文件压缩效果不佳。当您可以压缩.png文件时,JPE

我已经编写了一个用于压缩的java程序。我压缩了一些文本文件。压缩后的文件大小减小。但当我试图压缩PDF文件时。压缩后,我看不到文件大小有任何变化

所以我想知道哪些文件在压缩后不会减小其大小

谢谢
Sunil Kumar Sahoo

压缩后的文件在压缩后不会减小其大小。

通常不能压缩已压缩的数据。您甚至可能会得到比输入更大的压缩大小。

jpeg/gif/avi/mpeg/mp3和已经压缩的文件在压缩后不会有太大变化。您可能会看到文件大小略有减少。

媒体文件压缩效果不佳。当您可以压缩.png文件时,JPEG和MPEG不会压缩。

文件压缩通过消除冗余来工作。因此,包含很少冗余的文件会严重压缩或根本不压缩


您最可能遇到的无冗余文件类型是已经压缩的文件。在PDF的情况下,这将特别是PDF,它主要由图像组成,这些图像本身是压缩图像格式,如JPEG。

已经压缩的文件通常无法进一步压缩。例如mp3、jpg、flac等。
由于重新压缩的文件头,您甚至可以得到更大的文件。

唯一不能压缩的文件是随机文件-真正的随机位,或者由压缩器的输出近似


然而,对于一般的任何算法,有许多文件不能用它压缩,但可以用另一种算法很好地压缩。

实际上,这一切都取决于所使用的算法。当输入文件与该假设不匹配时,专门为使用普通英语单词中的字母频率而定制的算法将表现得相当糟糕


一般来说,PDF包含已经压缩的图像等,因此不会进一步压缩。如果基于PDF中包含的文本字符串节省了一些成本,那么您的算法可能只能勉强维持少量成本。

您可能也很难压缩加密文件,因为它们基本上是随机的,并且(通常)很少有重复块。

PDF文件已经压缩。它们使用以下压缩算法:

  • LZW(Lempel Ziv Welch)
  • 公寓(邮编,PDF 1.2)
  • JPEG和JPEG2000(PDF版本1.5 CCITT(传真标准,第3组或第4组)
  • JBIG2压缩(PDF版本1.4)RLE(运行长度编码)
根据创建PDF的工具和版本,使用不同类型的加密。您可以使用更高效的算法对其进行进一步压缩,通过将图像转换为低质量JPEG来降低质量

这里有一个很好的链接


简单回答:压缩文件(或者我们可以通过多次压缩将文件大小减少到0:)。许多文件格式已经应用压缩,在压缩电影、MP3、JPEG等时,您可能会发现文件大小缩小不到1%。

您可以将所有Office 2007文件格式添加到列表中(属于@waqashmed):


自Office 2007.docx和.xlsx(etc)以来实际上是压缩的.xml文件,您可能也看不到它们的大小有多大的减小。

在CBC模式下使用IDEA或DES等良好算法加密的文件不再压缩,而不管其原始内容如何。这就是为什么加密程序先压缩,然后才运行加密

  • 真随机

  • 通过加密强散列函数或密码对其进行近似,例如:

    AES-CBC(任何输入)

    “.join(映射(b2a_hex,[md5(str(i))表示范围(…])内的i)


  • 任何无损压缩算法,只要它使一些输入变小(正如压缩的名称所示),也会使其他一些输入变大

    否则,在给定长度L以下的所有输入序列的集合可以映射到长度小于L的所有序列的(小得多)集合,并且这样做没有冲突(因为压缩必须是无损和可逆的),这排除了这种可能性


    因此,有无限的文件在压缩后不会减小其大小,而且,文件不需要是高熵文件:)

    五年后,我至少有一些真实的统计数据可以显示这一点


    我已经用PrinceXML生成了17439个多页pdf文件,总大小为4858 Mb。一个
    zip-r archive pdf_文件夹
    为我提供了一个archive.zip,大小为4542Mb。这是原始大小的93.5%,因此不值得节省空间

    事实上,JPEG和MPEG文件通常可以通过一个好的压缩算法压缩百分之几。你确定吗?请记住,专用压缩算法通常会丢失一些对内容不重要的数据(如声音文件中的噪声或图像上的类似区域)。这意味着它们总是比任何通用压缩算法有更好的压缩比(主要是损耗更小),但BMP文件压缩得非常好。这并不取决于媒体的类型,而是取决于压缩类型。是的,文件格式是某种信息的压缩。不是真的。并非所有PDF文件都会自动以压缩格式存储其内容。但你是对的,PDF支持压缩。除非您的PDF仅包含图像,否则很有可能使用ZIP或RARIt压缩一些额外空间,这100%取决于创建PDF的应用程序,如我在文章中所述。这可能不成立,取决于使用的算法。我使用python xlsxwriter创建了一个excel工作表。当我用libreoffice calc重新保存时,大小减少了60%以上。为什么?