acm-header
登录

ACM通信

实践

硬盘驱动器:好的,坏的和丑陋的


硬盘驱动器

说明通过Superbrothers

硬盘驱动器(hdd)就像夹在花生酱和果冻三明治中的面包——看似平淡无奇的硬件部件,是保存软件所必需的。它们只是达到目的的一种手段。然而,硬盘的可靠性可能一直是一个重要的薄弱环节薄弱环节,在数据存储中。在20世纪80年代后期,人们认识到HDD的可靠性对于大型数据存储系统来说是不够的,因此在系统级别上通过一些出色的软件算法增加了冗余,RAID(独立磁盘冗余阵列)成为了现实。RAID将可靠性要求从HDD本身转移到数据磁盘系统。RAID的商业实现包括n + 1镜像、RAID-4和RAID-5等配置n + 2RAID-6通过两块冗余磁盘(双奇偶校验)提高存储系统的可靠性。此外,RAID组级别的可靠性也得到了很好的增强,因为HDD的可靠性也得到了提高。

一些制造商生产1tb的hdd,并正在设计更高容量的hdd。有了更高的区域密度(也称为位密度),更低的飞高度(磁头和磁盘介质之间的距离),以及垂直的磁记录技术,HDD的可靠性还能继续提高吗?实现这些能力所需的新技术并非没有问题。失效机制或失效概率与之前的有什么不同吗?不仅新技术带来的新问题需要解决,而且故障机制和模式也因制造商、产能、接口和生产批次而异。

这些新的故障模式将如何影响系统设计?利用当前时代和不久的将来的技术来理解hdd的故障原因和模式,将突出需要设计替代方案和权衡,这对未来的存储系统至关重要。软件开发人员和RAID架构师不仅可以更好地理解他们决策的影响,还可以知道哪些HDD故障不在他们的控制范围内,哪些故障可以管理,尽管可能会带来不利的性能或可用性后果。基于技术和设计,开发人员和架构师必须在哪里为弹性付出努力?

本文确定了重要的硬盘故障模式和机制,它们的影响和原因,并将它们与系统操作联系起来。新的HDD的许多故障机制与过去没有什么变化,但是潜伏的未被发现的数据损坏(潜在缺陷)在某种程度上困扰着所有HDD设计,随着面积密度的增加,在不久的将来会继续恶化。

两种主要的HDD故障会阻止对数据的访问:一种是使整个HDD失效,另一种是使HDD正常工作但数据损坏。每一种模式都有明显不同的原因、可能性和结果。第一种失败,我称之为操作,很容易被发现,但其发生率低于数据损坏或潜在的在读取数据时才会发现的缺陷。图1是无法读取数据的故障树,该故障树中最顶端的事件显示了数据无法读取的两个基本原因。

回到顶部

操作故障:无法找到数据

操作故障发生在两种情况下:第一,数据无法写入HDD;第二,在数据被正确写入并仍然完好无损地存在于硬盘上之后,电子或机械故障阻止了它被检索。

糟糕的伺服跟踪。伺服数据定期写入每个磁盘表面的每个数据道。伺服数据用于控制读/写磁头的位置。无论执行读、写或查找命令,磁头都需要伺服数据来查找并保持在轨道上。伺服轨迹信息只在制造过程中写入,不能使用RAID重构,也不能在现场重写。伺服楔中的介质缺陷导致HDD失去磁头位置的跟踪,或者下次读或写时将磁头移动到哪里。错误的伺服轨道导致无法访问数据,即使数据是写入和未损坏。颗粒,污染物,划痕,或热粗糙会损坏伺服数据。

无法保持正轨。硬盘上的轨迹并不是完美的圆形;有些是螺旋形的。连续测量头部位置,并与应有位置进行比较。PES(位置错误信号)重新定位磁头在轨道上。这种可重复的跳动是正常硬盘磁头定位控制的全部部分。NRRO(不可重复的运行)不能被硬盘固件纠正,因为它是不可重复的。由电机轴承、执行机构臂轴承、噪声、振动和伺服回路响应误差引起的机械公差,NRRO可以使头部定位花太长时间锁定在轨道上,最终产生错误。这种模式可由过度磨损引起,并由高转速加剧。它对球轴承和流体动力轴承都有影响。这类问题的潜在方面是,它可能是间歇性的。 Specific HDD usage conditions may cause a failure while reading data in a system, but under test conditions the problem might not recur.

两个非常有趣的例子,无法保持轨道是由可听到的噪音造成的。YouTube上的一个视频文件显示,Sun的Fishworks团队的一名成员对着他的磁盘驱动器大喊大叫,并监视磁盘操作的延迟。5他叫喊的震动引起足够的NRRO,驱动器不能满足超过520毫秒。虽然我们大多数人(有些人)不会对着我们的hdd大喊大叫,但热警报(警告蜂鸣器)引起的振动也会引起NRRO,并导致过多的延迟和超时。

聪明超过限制。现在的hdd通过SMART(自我监控分析报告技术)收集和分析功能和性能数据,预测即将发生的故障。通常,扇区重新分配是预期的,每个HDD上都有许多可用的备用扇区。然而,如果在特定的时间间隔内出现过多的数量,则认为该硬盘不可靠,并被失效。

SMART并不是真的那么聪明。HDD制造商在设计时面临的一个权衡是可用来存储SMART数据的RAM数量和计算SMART参数的频率和方法。当包含SMART数据的RAM满时,是否会清除它,然后用新数据重新填充?还是最近的百分比(x%)和最古老的(1-x) %清除?前一种方法意味着,如果在产生许多错误的事件期间内存被填满,那么像读错误率这样的速率计算可能是错误的。填充RAM之前的错误可能不足以触发SMART事件,清除之后的错误也可能不足以触发SMART事件,但如果清除没有发生,错误条件可能很容易导致SMART跳闸。

一般来说,SMART阈值设置得很低,忽略了许多可能导致HDD主动失效的条件。使trip级别更加敏感(在较低级别上的trip)会有hdd失败的风险,其中有一些错误并没有真正发展到故障点。HDD可能只是进行了一系列的重新分配,比如说,顺利地绘制出了HDD的问题区域。集成商必须评估HDD制造商实施SMART的情况,看看是否有其他更有指导意义的计算。集成商必须至少在非常低的层次上理解SMART数据收集和分析过程,然后评估其特定的使用模式,以决定SMART的实现是否足够,或者是否需要将SMART决策移到系统(RAID组)级别。

头部游戏和电子产品。大多数磁头失效的原因是磁性的变化,而不是电特性的变化。静电放电、高温和粒子的物理冲击会影响磁性。与任何高度集成电路一样,ESD可以使读头处于降级模式。随后的中低水平的热量可能足以使读磁头失效。谷歌最近发表的一篇文章没有发现温度和可靠性之间的显著相关性。6在我与来自所有主要HDD制造商的众多工程师的交谈中,没有人说温度不会影响磁头可靠性,但也没有人公布磁头寿命与时间和温度之间的传递函数。读取元件在物理上是隐藏的,很难损坏,但热量可以从屏蔽传导到读取元件,影响读取元件的磁性,特别是当它已经被ESD削弱时。

硬盘上的电子设备很复杂。失效的DRAM和破裂的芯片电容已经知道会导致HDD故障。随着HDD容量的增加,缓冲区的大小也会增加,需要更多的RAM来缓存写操作。是否需要RAM级别的RAID来确保不断增加的固态存储器的可靠性?

回到顶部

数据操作失败

在许多关于磁盘故障率的研究中,所有故障之间的平均时间都不符合制造商的规范。1-3.671011更令人不安的是,人们意识到失败率很少是恒定的;供应商之间存在显著差异,单个供应商与特定HDD家族之间存在巨大差异。这些不一致因未预料到的和未控制的批次间差异而进一步复杂化。

在来自单一制造商的相同型号的hdd种群中,可能存在统计上显著的子种群,每个子种群具有不同的故障时间分布和不同的参数。对HDD数据的分析表明,这些亚总体是如此不同,以至于不应该将它们组合在一起进行分析,因为故障原因和模式是不同的。hdd是一种无视“平均”故障率或MTBF概念的技术;不一致是可变性和不可预测性的同义词。

以下是一些不可预测性的例子,在产品生命周期的某个时刻,这些亚群体主导了失败率:

  • 空气污染。外壳内的粒子容易使hdd早期失效(划痕和磁头损伤)。这可能会导致失败率的增加。当所有受污染的hdd失效后,故障率通常会降低。
  • 设计更改。制造商定期发现有必要降低成本,解决测试阶段后期发现的设计问题,或提高成品率。通常,这种改变会提高现场的可靠性,但会产生比它解决的更多的问题。例如,一个设计改变对可靠性有立即的积极影响,但两年后另一种故障模式开始占主导地位,HDD的可靠性明显变差。
  • 收益率的变化。硬盘制造商正在不断调整他们的生产流程以提高成品率。不幸的是,hdd是如此复杂,这些产量增强可能会无意中降低可靠性。持续的调整可能会导致一个月的生产非常可靠,而另一个月的生产明显变差。

可靠性可变性的净影响是,RAID设计者和软件开发人员必须开发逻辑和操作规则,以适应所有hdd的显著可变性和最坏情况的问题。图2显示了三种不同的HDD种群的图。如果用一条直线拟合数据点,且斜率为1.0,则总体可以用威布尔概率分布表示,故障率恒定。(威布尔分布用于创建常见的浴盆曲线。)一条直线既不适合hdd# 2也不适合hdd# 3,所以它们甚至不适合Weibull分布。事实上,它们不适合任何单一的封闭分布,而是由多个故障分布组成,这些故障分布来自于不同时间点上占主导地位的原因。图3是一个来自同一供应商的五款HDD的例子。直线表示故障率恒定;斜率越低,硬盘越可靠。vintage代表一个月的产品。

回到顶部

潜在缺陷:数据损坏或丢失

前面的讨论集中在数据良好(未损坏)但其他一些电气、机械或磁功能受损的故障模式上。这些模式通常很容易被检测到,并允许系统操作员更换故障的硬盘,重构新硬盘上的数据,并恢复存储功能。但是,如果数据丢失或损坏了,因为数据一开始没有写好,或者被擦除或损坏了被写的很好。所有由丢失数据引起的错误都是潜在的,因为损坏的数据是在用户(软件)不知道的情况下驻留的。潜在缺陷的重要性怎么强调都不过分。潜在缺陷与操作故障的组合是最可能导致双重故障和数据丢失的序列。1

为了更好地理解潜在的缺陷,考虑常见的原因。

写错误可以使用read-verify命令来纠正,但是这些错误需要在写入之后再执行一个额外的read命令,并且可以使写入数据的有效时间几乎增加一倍。误码率(比特误码率)是对所有电气、机械、磁和固件控制系统一起工作写入(或读取)数据的有效性的统计度量。大多数位错误发生在读取命令上,并使用HDD内置的错误纠正代码算法进行纠正,但错误也可能发生在写入过程中。虽然误码率确实造成了部分有缺陷的数据,但更大的数据损坏来源是覆盖在磁盘上的磁性记录介质。

读写头在媒体上方飞行的距离是由滑块的气动设计精心控制的,滑块包含读写器和写入器元素。在今天的设计中,飞高度小于0.3 μ-in。干扰飞程高度的事件(在写入过程中将飞程高度增加到指定高度以上)可能导致写入数据很差,因为磁场强度太弱。记住,磁场强度不是随与介质距离的函数线性下降,而是幂函数,所以磁场强度随着磁头与介质之间距离的增加而迅速下降。当磁头过高时写入数据会导致媒体磁化不足,因此即使读取元件在指定的高度飞行也无法读取数据。如果在以前写的轨迹上写入,旧的数据可能会停留在头飞得太高的地方。例如,如果一个柜子里所有的hdd都在同时疯狂写入,那么自激振动和共振就足以影响到苍蝇的高度。在写入过程中物理碰撞或敲击HDD,或在支撑不佳的架空地板上沉重地行走,都会产生过大的震动,影响写入。

更难以解决的问题是滑块表面的润滑或其他碳氢化合物的积聚导致飞杆高度持续增加。碳氢化合物润滑剂用于封闭hdd内的三个地方。为了降低NRRO,电机通常采用流体动力轴承。执行机构的手臂移动头部枢轴使用一个封闭的轴承筒,包含润滑剂。媒体本身也有一层非常薄的润滑剂,以防止头部接触媒体本身。在某些情况下,媒介上的润滑剂会积聚在头部上,导致头部飞得太高。润滑油堆积也可能意味着未损坏的、写入良好的数据无法读取,因为读取的元素离媒体太远。润滑剂的机械性能会引起润滑油的积聚,这取决于化学成分。持续的高飞高度也可能由特定的操作引起。例如,当不写入或读取时,如果磁头在磁盘旋转时停留在同一轨道之上,润滑剂就会聚集在磁头上。 In some cases simply powering down the HDD will cause the heads to touch down (as they are designed to do) in the landing zone to disturb the lube buildup. This is very design specific, however, and does not always work.

在制造过程中,HDD的表面被检查和缺陷被绘制出来,HDD固件知道不写入这些位置。他们还在缺陷区域周围添加了“填充”,绘制出比估计的最小值更多的块,在缺陷周围创建了额外的物理距离,这是不可用于存储数据的。由于很难确定缺陷的确切长度、宽度和形状,所以添加的填充提供了额外的保护,防止在介质缺陷上写字。

介质缺陷,如空隙(凹坑)、划痕、碳氢化合物污染(各种油类)和涂抹的软颗粒,不仅会在写入过程中造成错误,还会在写入后破坏数据。用于应用某些介质层的溅射过程可能会使污染物埋在介质内。滑块的后续接触可以去除这些凸起,留下介质缺陷的空隙。如果数据已经写入,则数据已损坏。如果不写入,则下一个写入进程将不成功,但除非使用write-verify命令,否则用户不会知道这一点。

早期的可靠性分析假设,数据一旦写入,就不会被破坏,除非介质的磁性会退化,这个过程被称为比特腐烂。位腐,即磁介质不能保持适当的磁场,从而不能被正确地解释为0或1,这实际上不是一个问题。介质可以降级,但这种模式的概率与其他模式相比微不足道。当磁盘旋转时,数据可能会被损坏,即使数据没有写入或从磁盘读取。造成擦除的常见原因包括热蚀、腐蚀、划痕或污迹。


基于技术和设计,开发人员和架构师必须在哪里为弹性付出努力?


热硬斑是由头盘接触引起的短时间高热量的实例。这通常是由于磁头撞到小的“肿块”的结果,这些“肿块”是由颗粒产生的,即使在抛光和抛光后,仍然嵌入在媒体表面。单个接触产生的热量足以清除数据。即使不是第一次接触,多次接触的累积效应可能足以热擦除数据或机械破坏介质涂层和擦除数据。

滑块的设计是为了推开空气中的微粒,这样它们就不会被困在磁头和磁盘表面之间。不幸的是,除去0.3 μ-in中的所有粒子。范围是非常困难的,所以粒子会被捕获。用于制造硬盘的硬粒子,如铝2O3., TiW和C,会造成表面划痕和数据擦除。这些划痕是没有映射出来的介质缺陷,所以下次数据写入这些位置时,数据将立即损坏。其他“软”材料,如不锈钢可以来自组装工具和铝来自加工外壳的残留物。软粒子往往涂抹在媒体的表面,使数据不可读和不可写。腐蚀,尽管小心控制,也会导致数据擦除,并可能会加速在HDD外壳内的高环境热和非常高的热流从热苛刻。

回到顶部

潜在的缺陷数据

潜在缺陷是最隐蔽的错误类型。这些数据损坏存在于HDD上,但直到读取数据时才被发现。如果在第一次读取数据时没有发生操作故障,则使用校验磁盘纠正损坏,并且没有数据丢失。但如果某个硬盘发生了操作故障,发现该硬盘正在重构RAID组时,该硬盘的数据将丢失。由于潜在的缺陷一直存在,直到发现(读取)和纠正,它们的发生率是RAID可靠性的一个非常重要的方面。

一项研究得出结论,就创建损坏的数据而言,误码率是相当无关紧要的,4而另一位则声称,数据损坏率是硬盘操作失败率的5倍。8对由特定SCSI错误码识别的损坏数据的分析和后续详细的故障分析表明,由于各种原因导致的数据损坏率非常高,必须包含在可靠性模型中。

NetApp(网络设备)在2004年底完成了一项关于RAID架构中使用的282,000个hdd的研究。三个月的RER(读错误率)是8×10−14每字节读取的错误。同时,对66,800 hdd的另一项分析显示,RER约为3.2×10−13每字节错误。最近对5个月内63,000个hdd的分析显示,8×10有了很大的改进−15每字节读取的错误。在这些研究中,数据损坏被HDD制造商证实为一个HDD问题,而不是操作系统控制RAID组的结果。

而微软研究院的吉姆·格雷则坚称,转让4.32×10是合理的12字节/天/HDD,研究63000 HDD读取7.3×1017五个月的数据字节数,大致读取速率为2.7×1011字节/天/硬盘。4使用rer和读取的字节数的组合可以得到表中所示的每小时读取失败率。

潜在的缺陷不是以恒定的速率发生的,而是在突发或相邻的物理(非逻辑)位置。虽然一些潜在的缺陷是由磨损机制造成的,但数据无法区分那些以恒定速率随机发生的磨损。这些比率是操作故障比率的2到100倍。

回到顶部

数据擦洗的潜在价值

潜在的缺陷(数据损坏)可能发生在几乎任何HDD活动中:读、写或简单地旋转。如果不加以纠正,当操作故障发生时,这些潜在的缺陷将导致数据丢失。但是,它们可以通过后台清洗消除,这基本上是对数据错误的预防性维护。在擦洗期间(发生在空闲或低I/O活动期间),读取数据并与奇偶校验进行比较。如果它们一致,则不采取任何行动。如果不一致,则恢复损坏的数据并将其重写到HDD中。如果介质有缺陷,则将恢复的数据写入HDD上新的物理扇区,并将坏块映射出来。

如果不进行擦除,则从HDD在系统中开始运行开始,累积潜在缺陷的时间就开始了。由于擦除需要读取和写入数据,它可以作为HDD组件的故障时间加速器,使用依赖于使用的故障时间机制。最佳擦洗模式、速率和擦洗时间是HDD特定的,必须与HDD制造商一起确定,以确保操作故障率不增加。

频繁的擦洗会影响性能,但过于不频繁的擦洗会造成n + 1RAID组极易发生双盘故障。刷洗与全HDD数据重构一样,覆盖整个HDD的时间最短。完成擦洗的时间是一个随机变量,取决于HDD容量和I/O活动。操作系统可以调用完成擦洗的最长时间。

回到顶部

未来技术和权衡

这些故障模式将如何影响容量超过1tb的未来hdd ?当然,所有发生在1TB驱动器中的故障机制将持续存在于使用垂直磁记录(PMR)技术的更高密度驱动器中。PMR使用一种“厚的”,有点软的底层,使它容易受到媒体刮伤和挖痕。造成介质损伤的材料包括较软的金属和成分,这些在较老的纵向磁记录中并不是大问题。未来更高密度的驱动器可能更容易划伤,因为履带宽度将更窄。

另一个随着密度增加而持续存在的PMR问题是侧道擦除。改变磁粒的方向也会改变磁场的方向。PMR有一个接近相邻轨道的返回字段,可以潜在地擦除这些轨道中的数据。一般来说,履带间距足够宽,可以缓解这种机制,但如果重复写入某个履带,则侧履带擦除的可能性会增加。一些应用程序优化的性能和保持头部在一个静态的位置(少数轨道)。这不仅增加了润滑油积聚的机会(高空写入),也增加了擦除的机会。

一种用于提高比特密度的概念是热辅助磁记录(HAMR)。9这种技术需要写入头内的激光来加热媒体上非常小的区域,以实现写入。使用铁铂合金的高稳定性介质可以在比今天的标准介质小得多的区域上记录比特,而不受超顺磁性的限制。当然,控制热量的数量和位置是重要的关注点。

RAID被设计用来容纳来自划痕、污迹、凹坑和空洞的损坏数据。数据从校验磁盘重新创建,损坏的数据被重构和重写。根据媒体缺陷的大小,可能是几个块或几百块。随着hdd的面积密度的增加,相同的物理尺寸的缺陷将影响更多的块或轨道,并需要更多的时间来重新创建数据。一个代价是恢复损坏数据所花费的时间。桌面硬盘(大多数ATA驱动器)经过优化,无论需要多长时间都能找到数据。在桌面中没有冗余,并且(正确地)假设用户宁愿等待3060秒并最终检索数据,而不是让HDD放弃并丢失数据。

每个HDD制造商都有一套专有的用于恢复数据的恢复算法。如果数据找不到,伺服控制器将移动磁头一点点到轨道名义中心的一边,然后到另一边。这种脱轨读取可能在不同的脱轨距离上执行几次。这是所有HDD制造商使用的一个非常常见的过程,但是一个RAID组能等待多长时间才能恢复呢?

一些RAID集成商可能会选择截断这些步骤,因为他们知道,即使不是操作故障,硬盘也会被视为故障。另一方面,当一个HDD试图恢复使用RAID很容易恢复的数据时,一个RAID组的响应可以延迟多长时间?还要考虑当遇到划痕时会发生什么。对于大量块的恢复过程,即使该过程被截断,也可能导致超时情况。硬盘关闭,恢复数据或RAID组重构数据时间过长,导致性能停滞;超过超时阈值,则认为该硬盘故障。

一种方法是快速调用故障的HDD,将所有数据复制到备用HDD(甚至损坏的数据),然后恢复。复制命令比基于奇偶校验重构数据要快得多,而且如果没有缺陷,几乎不会损坏数据。这意味着重构少量数据的速度很快,不会导致相同的超时条件。有问题的硬盘可以(逻辑上)从RAID组中取出,并进行详细的诊断,以恢复该硬盘并映射出坏扇区。

事实上,最近的一项分析显示了潜在缺陷对双盘故障频率的真正影响。1早期的RAID论文指出,唯一值得关注的故障是操作故障,因为一旦写入,数据就不会改变,除非通过比特腐烂。

回到顶部

提高可靠性

硬盘驱动器不仅仅是灾难性的故障。它们还可能暗中破坏数据。除非检查或清除,否则如果发生灾难性故障,这些数据损坏将导致双磁盘故障。由这些事件导致的数据丢失是故障的主要模式n + 1RAID组。如果RAID组的可靠性要提高,甚至要跟上技术的发展,就必须减轻或消除未发现的数据损坏的影响。虽然擦洗是一个明确的答案,其他创造性的方法来处理潜在的缺陷应该被探索。

使用垂直记录的多tb容量驱动器将很快可用,由于更窄的轨道宽度、更低的飞头和更软的颗粒污染物的划伤敏感性,增加了可纠正和不可纠正错误的概率。一个缓解因素是通过驱动器上更大的错误纠正能力(4KB块而不是512或520字节块)和使用完整的恢复步骤将不可纠正的错误变为可纠正的错误。这将降低性能,因此RAID架构师必须解决这个权衡问题。

操作失败率不是恒定的。有必要分析现场数据,确定故障模式和机制,并对问题最严重的实施纠正措施。操作系统应该考虑围绕这些高概率事件及其对RAID操作的影响进行优化。

只有将这些高概率事件纳入到RAID运行优化中,可靠性才会提高。如果不能解决这些问题,就会导致灾难。

*Q有关文章queue.acm.org

你对磁盘一无所知
戴夫•安德森
http://queue.acm.org/detail.cfm?id=864058

首席技术官圆桌会议:存储
http://queue.acm.org/detail.cfm?id=1466452

与吉姆·格雷的对话
http://queue.acm.org/detail.cfm?id=864078

回到顶部

参考文献

1.包含潜在缺陷和非齐次泊松过程事件的廉价磁盘(RAID)冗余阵列的可靠性模型和评估。博士学位论文,马里兰大学机械工程系,2007。

2.Elerath, J.G., Pecht, M.增强的RAID存储系统可靠性建模。在第37届IEEE/IFIP国际可靠系统与网络年会论文集(爱丁堡。英国,2007年6月)。

3.服务器类磁盘驱动器:它们有多可靠?在年度可靠性和可维护性研讨会论文集,(2004年1月),151156。

4.格雷,J.和范英根,C.磁盘故障率和错误率的经验测量。微软研究技术报告,MSR-TR-2005-166, 2005年12月。

5.Gregg, B.在数据中心大喊大叫,2008年;http://www.youtube.com/watch?v=tDacjrSCeq4

6.皮涅罗,E,韦伯,w。,and Barroso, L.A. Failure trends in a large disk drive population. In第五届Usenix文件和存储技术会议论文集(2007年2月)。

7.现实世界中的磁盘故障:1,000,000小时的MTTF对您意味着什么?在第五届Usenix文件和存储技术会议论文集(2007年2月)。

8.施瓦茨,T.J.E等人。大型档案存储系统中的磁盘擦洗。在IEEE计算机学会研讨会论文集(2004), 11611170。

9.实现热辅助磁记录还有什么挑战?固态技术(2007年9月);http://www.solid-state.com/display_article/304597/5/ARTCL/none/none/What-challenges-remain-to-achieve-heat-assisted-magnetic-recording?/

10.磁盘驱动器的年代及其对可靠性的影响。在年度可靠性和可维护性研讨会论文集,(2004年1月),163167。

11.孙峰,张森。硬盘驱动器故障率在一年后是否进入稳定状态?在年度可靠性和可维护性研讨会论文集。IEEE(2007年1月)。

回到顶部

作者

Jon Elerath是SolFocus公司的可靠性工程师。在35年多的职业生涯中,他有超过一半的时间专注于硬盘驱动器的可靠性,包括在NetApp、通用电气、Tegal、Tandem Computers、康柏和IBM任职。

回到顶部

脚注

DOI: http://doi.acm.org/10.1145/1516046.1516059

回到顶部

数据

F1图1。硬盘读失败故障树。

F2图2。威布尔失败时间图适用于三个非常不同的人群。

F3图3。失败率随时间的五个年份和复合。

UF1数字平均读错误率的范围。

回到顶部


©2009 acm 0001-0782/09/0600 $10.00

允许为个人或课堂使用本作品的全部或部分制作数字或硬拷贝,但不得为盈利或商业利益而复制或分发,且副本在首页上附有本通知和完整的引用。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,需要事先获得特定的许可和/或付费。

数字图书馆是由计算机协会出版的。版权所有©2009 ACM, Inc.


评论


Gio互联网

令人惊讶的是,本文没有讨论高度冗余的块编码和编码的影响,这对最终用户体验到的实际数据可靠性有很大影响。


显示1评论

Baidu
map