Compression gzip压缩会导致数据损坏吗?

Compression gzip压缩会导致数据损坏吗?,compression,gzip,lossless-compression,Compression,Gzip,Lossless Compression,我正试图想出一个解决方案来压缩我拥有的数PB的数据,这些数据将存储在AWSS3中。我正在考虑使用gzip压缩,并想知道压缩是否会损坏数据。我尝试过搜索,但找不到任何gzip压缩确实损坏了数据的特定实例,以至于数据不再可恢复 我不确定这是否是解决此类问题的正确论坛,但我是否需要验证数据是否被正确压缩?此外,任何具体的示例/数据点都会有所帮助。gzip在世界各地不断使用,并在可靠性方面获得了很高的声誉。但是没有一个软件是完美的。也不是任何硬件,也不是S3。您是否需要验证数据最终取决于您的需要,但我认

我正试图想出一个解决方案来压缩我拥有的数PB的数据,这些数据将存储在AWSS3中。我正在考虑使用gzip压缩,并想知道压缩是否会损坏数据。我尝试过搜索,但找不到任何gzip压缩确实损坏了数据的特定实例,以至于数据不再可恢复


我不确定这是否是解决此类问题的正确论坛,但我是否需要验证数据是否被正确压缩?此外,任何具体的示例/数据点都会有所帮助。

gzip在世界各地不断使用,并在可靠性方面获得了很高的声誉。但是没有一个软件是完美的。也不是任何硬件,也不是S3。您是否需要验证数据最终取决于您的需要,但我认为在这一点上,硬盘故障比gzip损坏更可能发生。

gzip在世界各地不断使用,并在可靠性方面赢得了很高的声誉。但是没有一个软件是完美的。也不是任何硬件,也不是S3。最终是否需要验证数据取决于您的需要,但我认为此时硬盘故障比gzip损坏更容易发生。

gzip压缩,就像其他常用的数据压缩算法一样,是无损的。这意味着,当你解压缩压缩数据时,你会得到一份原始数据的精确副本(而不是像JPEG处理图像或MP3处理音频那样的东西)


只要你使用一个著名的程序(比如说,
gzip
)来进行压缩,并且运行在可靠的硬件上,并且你的机器上没有恶意软件,压缩导致数据损坏的可能性基本上是零。

gzip压缩,就像任何其他常用的数据压缩算法一样,它是无损的。这意味着,当你解压缩压缩数据时,你会得到一份原始数据的精确副本(而不是像JPEG处理图像或MP3处理音频那样的东西)


只要你使用一个著名的程序(比如说,
gzip
)进行压缩,并且运行在可靠的硬件上,并且你的机器上没有恶意软件,压缩导致数据损坏的可能性基本为零。

如果你关心这些数据,那么我建议压缩它,以及在删除原始文件之前将其解压缩与原始文件进行比较。这将检查一系列可能的问题,例如内存错误、大容量存储错误、cpu错误、传输错误,以及最不可能出现的gzip错误

在Unix中,类似于
gzip-dc
的方法可以实现这一点,而无需再次存储原始数据


另外,如果丢失一些数据仍然会留下很多有用的剩余数据,我会将其分解为若干部分,这样,如果其中一部分丢失,其余部分就可以恢复。gzip文件的任何部分都要求之前的所有内容都可用且正确,以便解压缩该部分。

如果您关心此数据,则我建议对其进行压缩,并在删除原始数据之前将其解压缩与原始数据进行比较。这将检查一系列可能的问题,例如内存错误、大容量存储错误、cpu错误、传输错误,以及最不可能出现的gzip错误

在Unix中,类似于
gzip-dc
的方法可以实现这一点,而无需再次存储原始数据


另外,如果丢失一些数据仍然会留下很多有用的剩余数据,我会将其分解为若干部分,这样,如果其中一部分丢失,其余部分就可以恢复。gzip文件的任何部分都要求它前面的所有内容都可用且正确,以便解压缩该部分。

我不建议一次就直接在大数据块上使用gzip。 很多时候,我使用类似的方法压缩整个驱动器
ddif=/dev/sda conv=sync,noerror | gzip>/media/backup/sda.gz

当我试图恢复数据时,数据无法使用。我已经恢复到不使用压缩的状态

我不建议一次就直接在大数据块上使用gzip。 很多时候,我使用类似的方法压缩整个驱动器
ddif=/dev/sda conv=sync,noerror | gzip>/media/backup/sda.gz

当我试图恢复数据时,数据无法使用。我已恢复不使用压缩

否,gzip压缩不会导致数据损坏。是的。你们检查过解决方案了吗?我怀疑任何gzip工作的文件系统都可以处理petabytes@Mysticate我已经检查过这个解决方案,但它意味着将数据写入磁盘并运行另一个CPU密集型任务。如果可能的话,我想避免gzip压缩不会导致数据损坏。是的。你们检查过解决方案了吗?我怀疑任何gzip工作的文件系统都可以处理petabytes@Mysticate我已经检查过这个解决方案,但它意味着将数据写入磁盘并运行另一个CPU密集型任务。如果可能的话,我希望避免这种情况。我在内存中进行压缩,并使用MD5处理未压缩的数据,因此我不太担心坏磁盘导致的位翻转。目前,我最关心的是由压缩引起的任何问题。user401445,gzip(deflate)是无损的,但它可能存在压缩速度慢的问题。检查一些更现代的压缩方法和并行实现(包括压缩和解压缩),比如zstd/pzstd。我在内存中进行压缩,并使用MD5处理未压缩的数据,因此我不太担心坏磁盘导致的位翻转。目前,我最关心的是由压缩引起的任何问题。user401445,gzip(deflate)是无损的,但它可能存在压缩速度慢的问题。检查一些更现代的压缩方法和并行实现(都是comp