1、采用缜密的设计和质量控制方法来尽量减少故障出现的概率。
2、以冗余资源为代价来换取可靠性。
(1)建立系统的设计目标;
(2)设计智能容错处理机构;
(3)根据设计目标对所作的设计进行评价,如果满足目标则设计成功,否则将返回第二步进行重新设计,直到满足设计目标要求。
硬件智能容错HIFT(HardwareIntelligentFaultTolerant)主要采用硬件冗余技术。其基本思想是对设备的关键部件配备多重相似或相同部件,一旦检测和诊断出设备发生故障就可以立刻切换到备份部件,以达到故障容错的目的。
图1所示为二冗余结构原理图:
图1二冗余结构原理图
2、硬件智能容错方式的分类硬件智能容错按其工作方式可以分为:静态冗余、动态冗余和混合冗余。
静态冗余容错是通过表决和比较屏蔽系统中出现的故障,如图2所示:
图2三模冗余(静态冗余)TMR系统结构图
静态冗余容错的主要特点是:
(1)由于故障被屏蔽,所以不需要识别故障;
(2)容易与无冗余系统进行转换;
(3)所有模件都消耗能量。
动态冗余的主要方式是多重模块相继运行来维持设备正常工作。当检测到工作模块出现故障时,一个备用模块立即接替故障模块并投入工作。
动态冗余容错控制的主要特点是:
(1)仅有一个模件消耗能量;
(2)模件数目可随任务而改变,不会影响系统工作;
(3)转换装置和检测装置中任一故障都会导致系统失效。
图3动态冗余容错控制结构图
图4H(n,k)系统结构
3、智能容错的故障处理方式
智能容错技术是一种外延广博的综合性技术。为了消除故障的影响,可以采用以下处理方式来实现:
(1)故障检测
通过故障检测可以迅速准确地对故障进行定位。故障检测是容错的基础。故障检测方式可分两种:脱机检测,即进行检测时系统不能做有用的工作,联机检测,即检测与系统工作同步进行,它具有实时检测的能力。
(2)故障定位
在给定的故障条件下,找出故障原因,确定发生故障元件的具体位置。定位的详细程度视具体问题而定,一般定位到进行系统重构所需的最小单元。
(3)故障屏蔽
故障屏蔽能够把故障效应掩盖起来,以防止故障对输出产生影响。故障屏蔽只能容忍故障,而不能给出故障警告,当冗余资源耗尽时,将使设备产生错误输出。常用的故障屏蔽方法有多模表决冗余和屏蔽逻辑两种,多模表决冗余就是在设备的多个装置中,只要至少有一个装置正常工作,系统就能完成其功能;屏蔽逻辑主要用于门级电路的故障屏蔽,它能有效地限制逻辑线路门输出的临界故障与亚临界故障。
(4)故障限制
故障限制就是规定故障的传播范围,把故障效应的传播限制到某一区域内。故障限制可以用软件和硬件来实现。
(5)故障隔离
故障隔离就是将故障隔离起来以防其进一步扩散和对设备产生影响。
(6)故障修复
当设备发生故障经检测和定位后,就可采取更换、修理、自修复等方式使设备复原。
(7)系统重组
当设备发生故障时,通过任务的重新分配或内部器件的重新组合,以切除或替换故障部件。
(8)系统重构
重构就是把修复的模件重新加入到系统中去。
(9)系统恢复
系统恢复就是经过屏蔽、重组等,使故障恢复到故障前的工作状态,不丢失或少丢失信息,并保证下一步的正常运行,系统恢复通常用软件实现。
4、智能容错的实现方法
智能容错的实现方法分为:
(2)故障特征识别;
(3)故障状态预测;
(5)故障容错控制。
图5故障容错控制过程框图
二、冗余技术所谓冗余(Redundancy)就是多余资源,冗余技术可供用来处理故障,冗余技术分为:
(1)硬件冗余法:硬件冗余HR(HardwareRedundancy)就是依靠附加硬件的冗余性和互补性来实现故障容错,附加硬件通常采用储备形式,当设备某个或某些关键部件发生故障后,可以用备份硬件替代故障部件,以削弱或消除故障的影响。
(2)软件冗余法:软件冗余SR(SoftwareRedundancy)可以通过增加软件功能来实现,其中包括修改容错控制策略、重新配置系统软件、有效地降低设备的运行速度、多模块并行诊断决策等。冗余附加技术指为实现上述荣誉另外所需的资源和技术,包括程序、指令、数据以及存放和调动他们的空间和通道。他们和硬件冗余中冗余备份一样,在没有容错要求的系统中是不需要的,而在容错系统中却是必不可少的。
以屏蔽硬件故障为目的容错技术中,冗余附加技术包括:
1)关键程序和数据的荣誉存储和调用;
2)进行检测、表决、切换、重构、纠错、复算的实现。在屏蔽软件故障的容错系统中,冗余附加件的构成不同。
冗余附加件包括:
1)独立设计的相同功能冗余备份程序的存储及调用;
2)实现纠错误检测及恢复的程序;
3)为实现容错软件所需固化了的程序。
1、主动容错控制
被动容错控制在目前的容错控制研究中,因为不受控制系统DFD环节的限制,被动容错控制相对于主动容错控制要更容易实现,已有的可以实现被动容错控制的主要方法有:
完整性控制器设计、同时镇定和可靠镇定。
与被动容错控制相比较,主动容错控制具有更多的优点。从理论上讲,被动容错控制是故障情况下的强鲁棒控制,主动容错控制是故障情况下的强自适应控制。被动容错控制即使在系统正常的情况下控制率也要满足故障条件下的要求,这在系统正常时显然是一种过高的要求,设计未免过于保守,必然要以牺牲性能指标为代价。另外,在预想故障数目较多时,被动容错控制问题可能根本没有解,所以被动容错控制有较大的局限性。基于控制系统FDD的主动容错控制实质是一种强自适应控制,它通过实时地对系统进行故障检测与诊断,当检测出系统故障后,根据不同的故障采取相应的措施,保证系统的稳定性和维持一定的性能指标。主动容错控制所用的主要方法是控制重构和故障补偿,前者需要根据故障重新设计控制器,后者则是利用故障的信息确定一个控制补偿量,目的都是力图使故障后的系统尽量接近甚至等价于原系统。
2、容错控制研究中需要解决的主要问题
尽管控制系统FDD和TFC技术的研究在理论上己取得了较为丰富的成果,但距离实际工程应用的要求还有相当大的差距,理论上也还有许多问题有待人们去研究和探索。本文主要研究了实时系统多机冗余、容错系统的故障检测与诊断、控制系统重构、容错实时运行库技术以及容错控制在工程中的应用等问题,而在目前的研究中,上述领域主要存在的问题分述如下:
(2)系统重构方面存在的主要问题:目前的系统重构问题研究较少。现有的运用广义逆的方法、基于状态反馈或输出反馈、特征值和结构配置等方法,仅是从数学模型角度将系统恢复,而不是从系统性能角度恢复,所以重构后的系统鲁棒性不能保证,有时甚至稳定性也难以保证。而且,多数重构对系统模型的要求也很苛刻。就目前的控制系统FDD研究水平来看,想获得故障后系统模型的全部信息是相当困难的,所以寻求故障后控制完全重构是理想化的。由于故障的大小是未知的,所以在设计时进行稳定性分析是非常困难的,只能对预想的故障进行稳定性分析。
(3)实时系统和容错技术相结合存在的主要问题:如何将软件容错技术有机地融合到实时系统中去,具有与发展软件容错技术本身同样重要的地位。目前,尽管实时系统的软件容错技术已经取得了非常巨大的进步,但在实时系统中并未得到充分地应用。
(5)容错控制理论运用于工程实际时需要解决的问题:容错控制在理论研究上比较困难,在实际工程中的应用更少。由于不同的工程领域所遇到的问题有很大的差异,不可能以一个统一的框架来解决所有的问题。理论研究所用的模型和假设同工程实际的差别比较大,这也是容错控制理论在工程实际中运用所遇到的主要困难。各个领域的工程技术人员,应结合自己的工程实际,选择相应的控制方案。因此,统一系统架构,构建支持多种主流冗余、容错模式的运行库,对工程设计人员来说是很重要的。
浏览量
原文标题:一文读懂“容错”与“冗余”技术
下载发烧友APP
电子发烧友观察
长沙市望城经济技术开发区航空路6号手机智能终端产业园2号厂房3层(0731-88081133)