frogfish 发表于 2006-9-3 19:49

是否存在替代传统可靠性预计的方法?

是否存在替代传统可靠性预计的方法?
作者:Michael Pecht博士,吴际博士 美国马里兰大学

  摘要
  对与电子产品,供应商要评估他们的产品是否可靠,并需要决定给客户什么样的可靠性保证。客户需要判断供应商知道他们将交付什么样的产品。这些都需要采用以失效物理分析法为基础的可靠性评估方法来实现。使用失效物理分析法也可以帮助客户和供应商评估和减少风险。失效物理方面的知识对于供应商和客户都是必须的,因为供应商的产品的现场失效会影响其信誉,减少商机。客户买了有问题产品的会危及他们的商机,甚至安全。

  现在人们普遍认为应该将产品的可靠性预计结合在产品设计与开发过程中,而我们也同时发现传统的可靠性预计方法存在不少的问题。例如,传统的可靠性预计模型不能预计产品现场失效,不能用于对比研究,并且还存在着误导产品适销趋势等问题。本文介绍了电子产品可靠性预计的历史发展,讨论了传统可靠性预计方法,并且介绍了一种越来越被广泛接受的、有效的替代方法。

  传统可靠性预计模型的历史
  在第二次世界大战中,为了能对系统可靠性进行量化评估,美国政府采购部门着手建立一种标准化的方法来制定需求规格和预测过程。因为如果没有标准化,每个供应商的预测就会基于他们各自的数据。这样,对于一个由不同供应商生产的元器件组成的系统,不仅将难以评估其可靠性预计,而且对于同样功能的元件或系统的不同设计之间的比较也造成了困难。
  可靠性预测与评估标准可以追溯到1956年11月。那时RCA发布了以“电子设备的可靠性应力分析”为题的TR-1100标准。该标准介绍了元器件失效的计算值模型。此后,美军方发布了MIL-HDBK-217可靠性预测手册。
  MIL-HDBK-217A规定,不论其使用环境、应用场合、所用材料、系统结构、器件功耗、制造工艺或制造商,所有的单块集成电路的失效率都是每百万小时0.4个失效。这种单一数值的失效率反映出一个事实:正确性和科学性没有像标准化一样被关注。
  微电子器件复杂的发展,使得依据MIL-HDBK- 217手册的预计日趋困难。有人可能会说MIL-HDBK- 217不应该用来预计新技术的可靠性。但是由于手册一般来说都是几年以前出版的,而其中的数据一般是出版之前5到10年或更久以前的,那么我们可以公正地说,手册已经不能用来对任何正在使用的电子技术进行预计了。例如利用MIL-HDBK- 217B对64K随机存储器件(RAM)计算出的平均故障间隙时间是13秒。此结果超过器件实际MTBF(Mean Time Between Failures, 平均故障间隔时间)几个数量级。所以,由于电子业的迅猛发展,MIL-HDBK-217不能有效地预计电子产品可靠性了。
  现在,美军方已经取消了MIL-HDBK-217标准。美国政府和军方,以及美国和欧洲的各种电子元器件、印刷电路板、电子设备和系统的制造商,已经不再使用传统可靠性预计方法(如MIL-HDBK-217及其衍生标准)。 
  传统可靠性预测方法与下列国际手册相同,;它们都是从MIL-HDBK-217衍生出来的。
  通过美国国家标准与技术协会(NIST)、贝尔北方研究所、美国陆军、波音公司、Honeywell、Delco和福特汽车公司等机构进行的研究清楚地表明,这一传统可靠性预计方法已经给业界带来了损害,必须加以改变。

frogfish 发表于 2006-9-3 19:50

传统可靠性预计方法存在的问题
  下面简单介绍一下传统可靠性预计方法存在问题的原因:
  1. 对于传统可靠性预测方法,进行最新的相关可靠性数据的收集是一个难以完成的工作,尤其当制造商每年都进行技术升级时。传统模型中的大绝大多数数据是过时的,如,MIL-HDBK-217中的连接器模型已经最少有15年没有更新,而这些模型是建立在25年前的数据基础上的。
  信任和使用哪怕是一个过时数据,或考虑不良的可靠性预计的结果,都会给系统设计开发带来巨大损失。举例来说,在设计前期,使用基于MIL-HDBK-217方法的军方可靠性分配文档(JIAWG),就导致最初设计决定F22新型战斗机电子系统的节点温度最大值为60℃,科曼奇直升机的最大值为65℃。

  波音公司对此批注如下:
  “由于军方电子封装可靠性分配和为保证稳定的电子元器件性能而设定后备温度限制,使得需要对系统部件进行常规冷却。节点温度与可靠性关系的正确性一直存在问题,缺乏实际数据基础。”

  对于科曼奇直升机,虽然明知最终温度循环将会产生水汽凝结,也会产生各种失效机理,而为了使节点温度不超过65℃,曾经要求其设备连接处温度被冷却至- 40℃。当这些问题被发现时,他们进行了一些轻微修改,但进度成本的损失去却无法挽回。
  2. 一般来说,设备更换并不等同于部件失效。通常,被更换的部件在重新测试时会发现它依然可以正常工作。这种情况被称为再测试通过,或未发现故障,或不能复现故障。人们也通常找不到“故障”发生的真正原因。由于可靠性工程的关注点一直集中在现场失效数据的概率评估上,而不是失效分析;所以人们经常认为对供应商来说,更换故障子系统(如印制板)通常比较便宜,这样就忽视了该板会失效的原因。
  3. 许多组件失效不是元器件相关的失效,而是类似插槽错误、校准错误、工具读数错误,或更高层次组装工艺过程中的元器件与印制版之间的连接(焊点)失效。今天,制约可靠性的因素更多的是系统设计问题(如元器件应用不当,时限分析不充分,缺乏瞬态控制、应力裕度不当),而不是元器件的制造或设计缺陷。
  4. 元器件失效不一定是由于元器件固有特性造成的,而可能是由以下因素造成的。(1)安装后由于疏忽造成的过应力;(2)交货后的存储、周转或安装过程中的潜损伤;(3)系统装配不当;或(4)操作工或设计者在系统中用错器件。各种应力环境也可能使预计现场失效的模型不适当。例如,一个西屋(Westinghouse)的火控雷达装置曾被应用在战斗机、轰炸机或军舰顶部的桅杆上。由于使用环境的不同,它们各自的结构、封装、可靠性和维护需求都不一样。
  5. 电子产品不会像模型预计的那样有一个常失效率。这些常失效率模型最初被用于描述元器件可靠性,是因为早期失效数据由于包括类似设备意外、维修故障、不适当/不充分的失效报告、不同使用年限设备混合报告、设备运行时间记录错误、多种运行环境条件混合等,而这些所有的因素结合在一起,给人一种失效率大约是常数的假象。此外,早期元器件有某些固有的失效机理,使得它们出现早期失效和磨损失效统计组体,从而导致失效率呈常数。对于今天的元器件来说,上述常失效率的假设都不再正确。
  6. 传统可靠性预计模型是基于业界失效率的平均值,它既不与特定供应商相关,也不与特定元器件相关。例如,失效可能来自于没有严格受控的制造过程而导致的缺陷。这些缺陷有些是未知的,有些则是由于成本太高而不能控制的(即制造商宁愿承担收益率损失,也不愿投入更多的成本使制造过程受控)。在这些情况下,失效并不代表现场失效情况,而这些失效却成为了可靠性预计的模型基础。
  7. 传统可靠性预计是基于不适当的统计模型。例如,西屋(Westinghouse)公司发现许多射频放大器的失效,是由于在热循环过程中导线与封装相摩擦致使导线绝缘层磨损,导致放大器短路。在失效分析中通过进行X射线检查确认了该问题。这种特定模式失效(而不是随机失效)是不能被MIL-HDBK-217的模型预计的。所以这种手册中的模型存在错误。
  8. 传统可靠性预计方法的评估结果差异很大。举例来说,一块由70块 64K DRAM组成的存储单板,在“正常良好”40℃良好环境下运行,用不同的预计手册进行可靠性预计,得到的预计失效率从700 FITS(FIT: failure in time, 每十亿小时一次失效)到4,240,460FITS。过于乐观的预计可能会导致致命的结果,过于悲观的预测会增加系统成本(如进行额外测试、或进行冗余设计等)、项目延期甚至停止开发。所以,这些传统预计方法不能用于前期预评估、基线制定和设计权衡。

  一种替代方法:失效物理分析(Physics-of-Failure,PoF)
  在日本、台湾、新加坡、马来西亚、英国国防部和许多美国领先的商业电子公司,传统的可靠性预计方法已经被抛弃了。取而代之的是,他们使用基于失效机理、失效模式和失效应力的根本原因分析的可靠性评估技术。这一方法叫做失效物理分析。这一方法已经被证明对预防、检测和校正与产品设计、制造、运行相关的失效是非常有效的。
  使用失效物理分析法的基础是,失效机理是由基本的机械、电子、热和化学过程所决定的。通过了解可能发生的失效机理,我们可以发现新兴或现有技术中潜在的问题,并在问题发生前解决它们。
  失效物理分析方法是从设计的起始阶段开始的(如图1所示),设计者需要基于客户需求和供应商能力明确产品需求,这些需求包括产品功能、物理实现、可测试性、可维护性、安全性、可服务性等特性。同时,需要明确产品使用环境,可以先从行业划分为航天、汽车、商业办公、仓储仓库或其它;然后再详细明确温度、湿度、震动、冲击和其它环境条件。这些条件既可以通过测量得到,也可以由客户指定。利用这些信息,设计者通常可以通过计算机,对作用在产品上的热、机械、电子、电化学等应力进行模拟。
  接下来,结合现有的有关所选择物料和结构对应力的响应的知识,进行应力分析,从而确定可能的失效位置(失效地点),失效会以何种形式发生(失效模式)和失效如何发生(失效机理)。通常,导致失效是以下四种应力中的一种:机械、电子、热或化学,并一般表现为是单一过应力失效,或从低应力开始的累计损伤失效。一旦明确了潜在失效机理,就可以使用特定的失效机理模型。可靠性评估包括计算每种潜在失效机理的失效时间,然后选定最早发生的失效(主失效)位置和机理。从这一评估得到的信息可以用于判断产品是否可以达到预期的使用寿命,也可以用来针对主要失效机理进行改进设计,增强产品耐用性。失效物理分析方法也可以用来认证设计和制造过程,确保标称的设计和制造规格满足或超过可靠性目标。
  对于元器件级和板级失效物理分析,马里兰大学的CALCE 电子产品与系统中心已经开发出了计算机软件。这一软件工具使设计、认证和可靠性评估更加容易而省时。

总结
  在机械、建筑和航天结构的设计中,失效物理分析方法已经成功地应用了十余年。对于房屋和桥梁建筑来说,由于样本数量通常是唯一的,基本没有可能在整个产品完成后进行测试或可靠性增长的可能,所以这一失效物理分析方法基本上是强制性的。虽然对于这些情况来说,它们所使用的材料、结构、所处的环境都是唯一的,但还是要求产品一次完成。
  在美国,军方已经发现传统可靠性预计方法存在巨大的问题,并已经在军方标准中取消了MIL-DBK-217标准。他们已经开发了军方可获得性手册-179A (Military Acquisition Handbook-17A),并在该手册中建议使用最佳商界经验,其中包括失效物理分析法。

mjhzhjg 发表于 2006-9-3 22:33

感谢楼主带来的好文章.
另外请问原文是英语的吗?有原文吗?缺少图1等内容是一大遗憾

frogfish 发表于 2006-9-4 15:39

原帖由 mjhzhjg 于 2006-9-3 22:33 发表
感谢楼主带来的好文章.
另外请问原文是英语的吗?有原文吗?缺少图1等内容是一大遗憾

图片我也一直没有找到

AaronSpark 发表于 2006-9-6 16:44

原文标题是什么?
页: [1]
查看完整版本: 是否存在替代传统可靠性预计的方法?