Linux 监控/sys/block/*/device/ioerr\u cnt,典型错误率是多少?

Linux 监控/sys/block/*/device/ioerr\u cnt,典型错误率是多少?,linux,Linux,我正在尝试监视/sys/block/*/device/ioerr\u cnt以查找即将失败的磁盘。我看到健康的磁盘也报告了一些错误 区分正常运行的磁盘驱动器和即将发生故障的磁盘驱动器的典型阈值是什么?这方面是否有最佳做法? 这不是一个很好的驱动器故障指示器,因为它实际上是驱动器如何响应命令的指示器,而不是实际驱动器硬件如何工作的指示器。例如,具有智能功能的驱动器会在内部重新映射坏块,这可能不会显示在ioerr_cnt中 您最好的选择是查询驱动器(如果它具有智能功能),因为它会跟踪实际错误率和重新

我正在尝试监视/sys/block/*/device/ioerr\u cnt以查找即将失败的磁盘。我看到健康的磁盘也报告了一些错误

区分正常运行的磁盘驱动器和即将发生故障的磁盘驱动器的典型阈值是什么?这方面是否有最佳做法?

这不是一个很好的驱动器故障指示器,因为它实际上是驱动器如何响应命令的指示器,而不是实际驱动器硬件如何工作的指示器。例如,具有智能功能的驱动器会在内部重新映射坏块,这可能不会显示在ioerr_cnt中


您最好的选择是查询驱动器(如果它具有智能功能),因为它会跟踪实际错误率和重新映射的块。

我同意最好的信息来自智能查询,但我们遇到了一种故障模式,其中针对故障驱动器的查询将无限期挂起,因此无法发出警报。。。这就是为什么我们正在寻找替代方法。在我们的例子中,故障驱动器生成ioerr_cnt事件的速度似乎比正常驱动器快数百倍,但我不确定这是否可靠……您可能希望查看Nagios并将其设置为每x分钟检查一次智能数据。您可以将其设置为在“无响应”以及驱动器或控制器故障时向您发出警报。注意:Nagios将监控几乎所有内容,因此您可以让它监控控制器、驱动器、系统组件、网络流量、温度、,等。它还可以在必要时提醒人们,甚至尊重通话状态,这样,如果凌晨3点你不在通话,你的手机就不会关机。8-)我们已经做了类似的事情,检查调用smartctl,smartctl依次进入不可中断状态并挂起,导致数千个孤立进程。这就是我试图避免的,我认为简单地从/sys读取数据永远不应该以这种方式挂起。。。驱动器响应命令的方式与硬件的运行状况之间是否存在某种关联?@MikeKlopot smartctl不应该挂起。有一个非常老的错误导致了这一点,但据说已经修复。智能驱动器非常擅长诊断其自身即将发生的故障。如果smartctl出现挂起,我怀疑不是驱动器。