AaronSpark 发表于 2006-9-7 20:43

可靠性预计的价值与局限

内容: 1. 引言
以MIL-STD-217(现在的MIL-HDBK-217)为基础的可靠性预计方法和数据数十年来一直是用于预计产品可靠性的方法。但这些方法和数据受到一些可靠性专家的批评,被指缺乏准确性。因此提出了其他方法(包括定性和定量的)来预计和改进产品的可靠性。由于预计可靠性的主要原因归根结底是要改进可靠性,因此替代以美国军用为基础的可靠性预计方法在许多方面是很有意义的。整个可靠性咨询和公司行业的建立就是为了要满足产品与服务对提高可靠性和改进可靠性预计的需求。那些批评以MIL为基础的可靠性预计方法的人是出于自己的利益还是他们的主张真有价值呢?也许两种成分都有。
许多研究确实表明,基于MIL-STD-217或其派生产品的预计方法互相之间并不相符,远不能准确预计产品可靠性。现已发现,采用这些可靠性预计方法的结果通常较保守,在许多情况下实际产品的可靠性要比预计值好几倍。但基于MIL的可靠性预计依然得到广泛使用,甚至有许多用户要求使用这一方法。
如果模型或过程没有得到正确的使用,那就真的成了“无用输入,无用输出”了。在各种行业用数学模型来预计物理行为方面存在很多这样的例子。有限元分析(FEA)和计算流体动力学(CFD)是电子和其他行业内广泛用于合理设计和预计物理元素行为的其中两个工具。用任何工具或方法要成功建立模型,在很大程度上要依赖于使用者的经验和技巧,以及模型使用的方式。模型越是灵活强大,如果使用不当,错误就越严重。
模型只能接近真实。因此他们有固有的不准确性(不准确的程度取决于对准确度的定义),他们的值在比较研究中要高于切实的结果。与人相关的因素,如设计、试验、技巧、培训、质量、服务和维护等,会直接结合到可靠性中,无论用什么方法都极难预测、鉴定或建立合适的模型。另外,预计结果和现场失效的比较只有在所有产品都失效并且记录了真实的失效前时间才能全面确定特性。
每种方法和过程都有优点和缺点。可靠性专业人员应在了解其局限的基础上充分利用其优点。没有哪一个方法是包医百病的。在不同的时候或在产品寿命周期期间应使用几种方法来合理预计、评价、确定和改进产品的可靠性。
2. 恒定失效率的假设
基于MIL的可靠性预计方法是以恒定失效率为基础,这一方法最初由MIL-STD-217引入,多年来被用于估计产品和系统的失效率和平均无故障工作时间(MTBF)。有许多商业标准就是由MIL-STD-217演变而来(表1)。其主要前提是:可靠性取决于零件计数和零件应力方法,各个元器件的可靠性决定了系统或产品的可靠性。这表现为通过各个元器件失效率的简单相加来得出总的产品失效率。这一方法的主要假设(也是最受争议的)是:元器件的失效率是恒定不变的,或失效是指数分布的。
虽然从直观来讲恒定失效率的假设似乎不真实,但我们要考虑以下情况:典型的电子产品寿命周期(从生产释放到寿命结束)在2到5年之间。在此期间以及最初的“早期失效”阶段,恒定失效率(FR)假设并非没有道理,因为一个产品中的大多数元器件并没有到达磨损期。即便在实际中FR(失效率)可能略有下降(取决于“早期失效”阶段的长度)或上升(磨损阶段的开始),但从大多数实际出发可以假设为恒定不变。恒定FR的假设也大大简化了可靠性计算中的数学问题。如果使用指数以外的分布,预计的准确度可能提高了,但数学复杂度会提高几个数量级。如果采用恒定FR方法并进行合理的解释,即使稍有不准确,对于数学简化的好处来说也是值得的。
(表1)
3. 平均无故障时间的含义
根据这些假设,系统失效率(λSystem)和平均无故障工作时间(MTBF)或平均失效前时间(MTTF)表示为:
(公式)
许多可靠性专业人员批评恒定FR假设不真实,不适于估计或预计可靠性。起先看这种说法很有道理。因为恒定FR不会随时间而变化,意味着元器件或系统不会老化或磨损。从实际经验来看,确实随着时间的推移失效率会提高。产品确实会老化和磨损,失效率会随时间而升高。
即使恒定FR假设在开头听起来不合理,那么MTBF对于实际产品失效来说其物理含义又是什么呢?根据指数分布的数学表达式,指数分布的失效概率F(t)(恒定失效率)是:
(公式)
这表明,到了产品MTBF的时候,现场中63.2%的产品都至少失效1次。与某些认识和数学处理相反,MTBF并不一定这样解释,一般来说,产品会在MTBF确定的时间失效,或者我们认为一般产品在到达MTBF指定的时间之前是可操作的。
例如,一个产品的MTBF为500000小时或相应的失效率为2000 FIT。这500000小时可转换为年数(假设产品24小时操作):
(公式)
因此63.2%的产品在57年中会经历一次失效,或者产品在57年内失效的概率是63.2%。虽然数学显示平均寿命为57年,但实际上产品由于磨损远在57年之前就会失效。也许对于某些可靠性专业人员来说这些数字是有用的,但对于电子行业普通从业者来说这些数字含义模糊,提供不了多少有用信息。如果同样的数字从另一个角度来看,如每年的估计失效数,则会更有意义。在此例子中,如果产品的FR是2000 FIT,则平均失效率(AFR,有时称累积FR)可确定为:
(公式)
也就是说,MTBF=500000小时可被视为平均每年1.75%的失效率,如果现场有1000个装置,估计一年会有~18个装置失效。对大多数人来说,这可能是最有用的MTBF解释。MTBF可以被简单地看作产生年平均失效率的数学数字。要注意的是,公式(7)并没有预先提出一个基本分布,MTBF可用MTTF(平均失效前时间)来代替,而MTBF只适用于指数失效分布。
同样,失效概率F(t)也可用于表示失效率,如果是一年,用指数失效分布可计算如下:
(公式)
从公式(7)和(8)的结果可以看出,AFR和F(t)实际上是相近的,但并不完全相同。实际上当MTBF较低时,AFR和F(t)结果相差更大(见图1)。
只有当MTBF>50000小时时,结果才会实际上一致。在使用象公式(7)这样的平均值时要很小心,因为MTBF较低时其结果可能过于保守。
这种差异的原因在于,F(t)考虑了现场中原有的装置整体情况,而AFR则考虑当前的整体情况,并考虑了装置的补充以及失效装置的维修或更换。
4. 恒定失效率的相关性
在一定的产品寿命周期和特性下,恒定FR假设可以是对产品现场失效的很好的近似。图2表示了“浴盆曲线”的典型构成图:早期失效区(FR下降)、恒定FR区(正常的使用寿命)和磨损区(FR上升)。最大寿命周期为5年的电子产品,其FR可用恒定FR来近似表示,如例I所示。在产品的寿命周期中,用恒定FR估计的FR先是过低(早期失效),后是过高。早期失效可归因于生产问题或者产品没有成熟就在TTM(Time to Market-上市时间)压力下过早推出市场。在所有早期失效根源没有确认和改正以前推出产品会增加初期阶段的FR。总的来说,由于误差求平均值(averaging),恒定FR假设在本例中似乎很有效。但在例II中,产品寿命周期为10年,恒定FR则不是好的假设,因为最后5年的失效率被低估了。因此在最初5年(因为高估了FR)购买过多的备用件在磨损期真正需要的时候可能已超出了其储存寿命。
5. 基于军用标准的方法与其他方法
可靠性方法可归为4大类:可靠性预计、定性方法、定量方法和分析方法。
可靠性预计是以数据库工具为基础的,如MIL-HDBK-217、Telcordia SR-332等。定性方法涉及大量试验,如HALT/HASS、ESS、HAST等。定量方法要采用有限元分析(FEA)、失效物理(PoF)等方法。分析方法则是可靠性预计工具和定量方法的混合(威布尔分析、寿命应力分布等)。
基于MIL的可靠性预计方法主要用于当设计仍处于图纸阶段时建立基准可靠性数值。要进行可靠性预计需要了解构成产品的元器件以及估计应力和最终使用环境条件。数据库提供不同种类元器件的失效率。数据库由供应商提供的“现场”失效数据构成。由于现场失效主要取决于设计和应用,因此这些数据并不代表所有情况,这些数据库由于包括了尽可能多的数据,因此提供的失效率趋向于保守。没有一个模型可包括所有元器件,模型的组合可覆盖更广的范围。由于误差求平均值,这些方法对于包含更多部分的系统来说提供的结果比小系统更准确。
定性方法主要用于改进产品的可靠性,而不是测量或求值。这些方法使用一些类型的加速试验环境,产品承受高应力来加速找出潜在失效或设计弱点。这些方法要求使用产品实物和专用设备。好处有很多,但费用和时间的要求也很高,具体要看试验的类型和程度。在有些情况下失效是由试验环境或方法来促成,而不是现场或使用环境。另外,结果在同类的产品中也可能不一致,因为试验环境可能不一致。
定量方法则以计算为主,因为产品的可靠性大多是通过计算机模拟分析推导而得。这些方法要求在计算机中把设计建立成模型,并有大量的支持数据。结果可以非常准确,具体要看模型建立的技巧水平和所具备的数据而定。但用定量方法是耗时、困难而又单调的工作,可能会与当前电子产品迫切的TTM要求相违背。
分析方法是预计和定量方法的混合,并要求用定性方法获取数据。这些方法在推导、测量或证明可靠性方面可提供很准确的结果。他们在建模方面功能多样,不会局限于指数分布。但有些必要数据要通过实际产品的试验来获得。
表2提供了不同方法在实际工作适用性上的比较。
(表2)
一个模型或方法是否能预计或帮助改进产品的可靠性呢?又能又不能。这要看其使用的方式、结果的解释方式以及根据结果采取的措施是什么而定。措施有效吗?只有现场失效率能够回答这个问题。
一种方法是否比另一种方法要好?这要取决于使用者的原则和利益。每种方法的支持者都会为自己的观点而辩护,并且常常排斥其他方法。但模型和过程的组合可能是评价和改进产品可靠性的更好的方式。每个方法都有优点和缺点,没有哪种方法是适合于一切事物的。
6. 对可靠性预计的需求
电子工业对可靠性预计方法的一些潜在需要包括:
(1)可靠性改进:用较少或FR较低的元器件可降低现场失效。降低温度和提高降额可改进可靠性。
(2)设计折衷:在使用大量低FR元器件与使用较少的高FR元器件之间进行选择。元器件等级选择(工业级或商业级等)。
(3)寿命周期费用:确定每年或寿命周期的总产品费用。
(4)系统可用性:正常运行时间和停机时间的预计以及用于改进可用性的冗余计划。
(5)选择分析,基准:比较候选产品的MTBF,通过模型预计来获得产品潜在可靠性的初步近似值。产品复杂度越高,在现场的故障概率就越高。必须用相同的一致的方法来比较类似产品。由于可靠性依赖于设计,因此结果可能并不完全准确,但它提供了初步的比较结果。
(6)保修:选择适当的保修期。过高估计保修期会增加寿命周期费用,低估则会使产品的竞争力低于类似产品。
(7)维修费用:保修期间的维修费用。这是产品总费用的一部分,需要在产品定价时确定。
(8)维护费用:与产品预防性维护有关的费用评价。高FR产品需要更经常地更换,以尽量减少系统停机时间。
(9)备用件:确定用户或分销商备用部件数量和种类。高FR产品需要存储的数量更多。
一个可靠性预计方法是否能很好解决上述需要将决定其成功率和最终的价值。
7. 基于军用标准的可靠性预计的价值
预计产品可靠性最好的方法是什么?显然是可提供最准确结果、花费时间和工作最少而费用又最低的方法。
可靠性预计、构成、方法或任何其他概念的价值必须考虑效益和费用。因此有了最简单的著名公式:价值=效益-费用。如果费用超过了效益,则没有实际价值。另外,还有因市场压力而涉及的时间因素,有时叫TTM。因此,价值、效益和费用都是时间的函数:V(t)=B(t)-C(t)。可靠性预计的价值在不同的时间点是不同的,因为效益和费用会随时间而变化。
按照V(t)=B(t)-C(t),基于MIL的可靠性预计其价值随时间而变化,这要取决于不同的产品寿命周期阶段。如图3所示,在概念阶段,其价值是很高的,在开发阶段达到最大值,因为设计仅仅是在图纸上,没有实际产品可测试。其效益B(t)是很高的,因为根据材料单(BOM)只有黑盒方法可以使用。其费用C(t)是较低的,因为根据建立的模型和数据库可很容易推导出预计值。从概念到开发阶段价值的上升要归因于设计的成熟和产品定义的细化。
另外,当新产品推出时,保修期、维护和修理、服务支持费用都需要确定,以估计其寿命周期中的总费用。在早期阶段,这些量只能用基于MIL的预计方法来估计。但从这一时刻之后,基于MIL的预计方法价值开始下降,因为此时已造出样品,产品可靠性开始通过试验来评价。
其他预计方法(通过试验、建模或现场失效)在寿命周期的早期阶段价值很低,但在有了样品进行试验和产品成熟后价值迅速上升。在试产阶段价值达到最大值,因为受试产品是进入现场的产品的代表。试产后,价值缓慢下降但仍然较高,因为现场失效数据具有历史重要性。但这些预计方法的最大价值与基于MIL的预计方法相比,在某种程度上还是略低一些,因为尽管其效益很高,但获取这类数据的费用也高。
8. 可靠性预计与现场失效
根据几个不同公司电信产品的例子,典型产品A的失效率行为可见图4。
为了保护构建此图的公司数据的信息专利权,图中所示的FR数是由实际数值修改而成。另外,由“无发现故障(NDF)”引起的故障、用户错误和某些异常现象(如偶然批缺陷部件、运输中产品损坏等)也已去掉。
概念和开发阶段的产品A可靠性预计值为FR=5%。这类产品的预期值是FR=1%。根据产品A在2年内收集的现场失效数据,得出平均值FR=2%。在头6个月,FR有很大的起伏,因为市场上产品很少,有些早期失效会逃过出厂检查。6个月后,FR趋于稳定,到了第9个月突然急剧上升。这是因为大客户或分销商把累积故障产品一起运送到服务或维修中心所致。在第一年后,FR开始稳定在~2%,随时间推移稍有上升。
预计的FR比实际值高~1.5倍。这在预料之中,因为基于MIL的可靠性预计模型本身较保守。Telcordia SR-332表明,在模型中采用通用失效率的可靠性预计是“90%置信上限点估计。这就是说,实际器件的通用失效率有90%的机会会较低…”。并且,“产品的实际失效率至少有90%的机会(如95%的机会)比预计值低…”。另外,基于MIL的预计方法所使用的数据通常是过时的(保守的)。在数据收集、汇总、确认、出版和使用的时候,供应商对元器件设计和生产的改进可能已经使元器件更可靠。
另外,用这一模型只对“浴盆”曲线的中间区有效,它更近似于稳定态或恒定失效率。一般地,早期失效在工厂已经被筛选剔除,而电子元器件的磨损则远在2-5年之后,这是一般电信电子产品的寿命周期。如果产品设计时的使用目标长于5年,则应使用不同的方法来预计浴盆曲线的磨损区。
根据产品A的历史记录,在下一个产品B的可靠性预计中初步的近似方法可采用2.5的修正系数来填补预计值(用模型)和实际可靠性之间的差异。这一近似方法在过去的使用中取得过很大的成功,准确率达80%到100%。黑盒可靠性预计可用作基准,并采用适当的修正系数,以接近真正的可靠性。
如果典型的可靠性预计模型遵循黑盒方法,则预计可靠性值会很不准确(通常是较保守,而不是乐观),这要视所用的模型及其使用方法而定。大多数情况下可靠性预计值要比实际现场行为保守几倍。有几种方法可用于改进准确度,如实验室和供应商提供的现场数据以及公司实验室和现场数据(图5)。

每次注入较确定的数据,预计值就越准确,越接近于产品真实的可靠性。一般而言,我们会要求供应商提供预计和验证可靠性值。验证可靠性通常是根据供应商实验室(新产品)或现场(已有产品)数据推导而得。即便是实验室方法采用了一些寿命加速方法,它也不能揭示出真正的本质或失效时间。这是因为用于计算的加速模型存在争议,失效还有可能是由试验方法而引起,而且产品是在控制条件下试验的,而在现场中条件是非控制和不可预测的。
现场失效还涉及许多其他因素。其中一个重要因素是软件,它本身已成为一个新的可靠性领域。在基于MIL的可靠性预计方法中软件通常得不到充分的表示,但在现场中它可带来大量失效,软件造成的失效有时甚至会被归到硬件失效中。其他“软”现场失效,如标签等,也难以归类或预计,这使现场失效监测变得更困难。
预计值与现场失效数据的比较是较为困难的,因为要花时间来积累、接收和处理现场有意义的数据。另外,现场数据也会因使用、时间和条件而出现偏差。在没有具体了解失效时间和原因的情况下,对这种高度卷积的数据进行简单处理会导致不正确的结论。
9. 结论
基于MIL的可靠性预计方法具有一致性,数学计算简单,但不够准确,通常趋于保守。这一局限可通过使用历史数据和适当的修正系数来克服,使可靠性预计的准确度达到实用的水平。可靠性预计不应只取其表面值,而应把其作为在设计方案的比较研究、候选产品的评价或产品总寿命周期费用的早期预测中的性能指数或充分基准。这些方法的价值在没有产品实物的早期开发阶段是非常高的,但在有了样品供试验后,其价值迅速下降。采用这些方法可提高产品的基准可靠性,但由于产品可靠性主要取决于设计和最终使用条件,因此基于MIL的可靠性预计不适于证明或改进产品的现场可靠性。其他分析类、定性或定量方法可用于证明和改进产品的现场可靠性。

mjhzhjg 发表于 2006-9-9 21:37

请问是原创吗?写得很不错

geyiyuan 发表于 2006-11-3 13:27

可靠性预计的价值与局限

很好!
支持!

geyiyuan 发表于 2006-11-3 13:43

可靠性预计的价值与局限

现在可靠性预计与分配的方法还很少。

8820281 发表于 2006-11-9 11:11

现在这个也算是热门呢,可靠性

lorry 发表于 2006-11-9 11:50

学好了挺费劲,数学知识要好。

liwensheng 发表于 2006-12-20 11:26

学可靠性主要是在统计和概率方面的知识必须扎实!
页: [1]
查看完整版本: 可靠性预计的价值与局限