Filesystems 如何保护我的文件数据免受磁盘损坏?

Filesystems 如何保护我的文件数据免受磁盘损坏?,filesystems,storage,corruption,Filesystems,Storage,Corruption,最近,我读了一篇文章,题目是。它主要讨论了消费者SATA驱动器中的高速位翻转,并得出结论“现在无法从特定磁盘读取所有数据的可能性为56%”。即使是Raid-5也不能拯救我们,因为它必须不断地扫描问题,而且如果磁盘真的死掉了,您重建的文件系统上肯定会有一些翻转的位 考虑事项: 我听说过Sun的很多东西,但是Linux和BSD的实现仍然是实验性的。我不确定它是否已经准备好进入黄金时间 我也读了很多关于文件格式的书。似乎在每个文件中存储一些额外的%奇偶校验将允许您从大多数问题中恢复。但是,我不知道有哪

最近,我读了一篇文章,题目是。它主要讨论了消费者SATA驱动器中的高速位翻转,并得出结论“现在无法从特定磁盘读取所有数据的可能性为56%”。即使是Raid-5也不能拯救我们,因为它必须不断地扫描问题,而且如果磁盘真的死掉了,您重建的文件系统上肯定会有一些翻转的位

考虑事项:

我听说过Sun的很多东西,但是Linux和BSD的实现仍然是实验性的。我不确定它是否已经准备好进入黄金时间

我也读了很多关于文件格式的书。似乎在每个文件中存储一些额外的%奇偶校验将允许您从大多数问题中恢复。但是,我不知道有哪个文件系统在内部执行此操作,而且似乎很难管理单独的文件

备份(编辑):

我知道备份是最重要的。然而,如果不进行某种检查,您可能很容易在不知情的情况下向人们发送坏数据。同时,找出哪个备份具有该数据的良好副本也可能很困难


例如,一个Raid-5阵列运行了一年,发现一个损坏的文件。现在你必须回去检查你的备份,直到你找到一个好的副本。理想情况下,您可以转到包含该文件的第一个备份,但这可能很难确定,尤其是如果该文件已被编辑多次。更糟糕的是,考虑是否在损坏发生后追加或编辑该文件。光是这一点就足以解释块级奇偶校验,比如Par2。

56%的几率我看不懂什么,我对此表示怀疑。我混合使用了RAID 5和其他优秀产品以及良好的备份实践,但使用RAID 5和热备盘时,我从未发生过数据丢失,因此我不确定这到底是怎么回事。如果您正在存储奇偶校验信息。。。您正在使用软件创建RAID系统,R5中的磁盘故障会导致类似奇偶校验的检查,以找回丢失的磁盘数据,因此。。。它已经在那里了


运行Raid,备份数据,你会没事的:)

那篇文章误解了问题的来源,大大夸大了问题的严重性。它假设数据丢失事件是独立的,也就是说,如果我使用1000个磁盘,并得到500个错误,那么500个磁盘上可能每个都有一个错误。但事实上,任何一个有过磁盘问题的人都知道,一个磁盘上可能有500个错误(仍然是磁盘总容量的一小部分),而其他999个则没有问题。因此,在实践中,并非56%的可能性是您无法读取所有磁盘,相反,这可能更像是1%或更少,但在这1%的人群中,大多数人会发现他们丢失了几十个或数百个扇区,即使整个磁盘没有出故障

果不其然,实际的实验反映了这种理解,而不是本文所提供的


基本上,这是一个“中国耳语”的例子。此处链接的文章指的是另一篇文章,而这篇文章又间接指的是一篇已发表的论文。论文说,这些事件当然不是独立的,但在向易于理解的博客格式过渡的过程中,这一重要事实消失了。

ZFS是一个开始。许多存储供应商还为520B驱动器提供额外的数据保护。但是,这只会在数据进入存储结构时保护数据。如果它在主机级别被损坏,那么无论如何,您都会被冲洗掉

即将推出一些基于标准的解决方案来解决这个问题。端到端数据保护


考虑T10 DIF(数据完整性字段)。这是一个新兴的标准(5年前起草)和一项新技术,但它的崇高目标是解决数据损坏问题。

我不太确定。如果任何一个“加起来的”位被翻转,并且你重新构建了它,那么你最终会得到错误的值。这些位在到达用户空间时不会被翻转。对于软件RAID,磁盘控制器会注意到一个失败的校验和,并将“读取失败”返回给RAID控制器或操作系统。因此,不可靠扇区的位不包括在RAID 5计算中。您误解了。我说的是磁盘重建,有什么误解吗?翻转的位导致磁盘控制器中的校验和失败,并报告“读取失败”。没有损坏。当你取出一个磁盘并插入一个新磁盘时,你丢失了该磁盘上的数据。在没有所有数据的情况下,它怎么能进行校验和呢?我个人在桌面的500GB硬盘上遇到过未处理的文件被破坏的问题。这些通常是我有几十万张要测试的图片,有时会导致我的测试失败。你有实际实验的例子吗?当然,如果你读了那篇你很兴奋的文章,它会链接另一篇文章,读了那篇,它不会提供任何适当的参考,但最终在纠缠作者之后,作者会在评论中链接一篇文章。那篇论文彻底摧毁了这个“56%”的东西,给出了约1%的真实数字。至于你的文件,检查驱动器的智能诊断,检查你的RAM,文件必须在RAM中,CPU才能处理它们,令人惊讶的是,尽管硬盘有ECC,而大多数DIMM却不存在,但人们并不认为躲闪RAM是数据损坏的根源。