您當前的位置:檢測資訊 > 科研開發(fā)
嘉峪檢測網(wǎng) 2025-06-27 12:28
裝備系統(tǒng)研制是不斷解決技術(shù)問題的過程,故障歸零是型號裝備研制中的常態(tài)化工作;需要吸取問題與故障的經(jīng)驗教訓,總結(jié)問題與故障帶來的啟示,提煉故障歸零的共性規(guī)律與方法,并將相關(guān)教訓、啟示、方法進行傳承與共享。
中國工程院樊會濤院士研究團隊在中國工程院院刊《中國工程科學》2025年第1期發(fā)表《裝備系統(tǒng)故障歸零的一般方法》一文。文章立足多年從事戰(zhàn)術(shù)導(dǎo)彈工程研制、較多參與裝備故障歸零的經(jīng)驗,以故障為核心,追蹤故障從出現(xiàn)到解決的全過程,借助方法論的認識與應(yīng)用,從故障的定義及價值、故障歸零的思維方式、故障歸零的方法等方面出發(fā),總結(jié)了裝備系統(tǒng)故障歸零的共性規(guī)律與一般方法,論述了故障的4個價值、系統(tǒng)思維的4個基本概念、故障排查的4種常用方法。深入闡述了故障定位、故障原因與機理分析、故障復(fù)現(xiàn)設(shè)計、改進措施驗證、舉一反三、提煉準則與啟示6個故障歸零關(guān)鍵環(huán)節(jié)的具體做法,以期杜絕裝備系統(tǒng)研制與使用過程中出現(xiàn)的重復(fù)性、簡單性、低層次故障,明顯減少因認識不足導(dǎo)致的高層次、復(fù)雜性問題,且在故障出現(xiàn)后能夠高質(zhì)量、高效率地完成技術(shù)歸零。
一、前言
裝備系統(tǒng)研制是技術(shù)層面不斷成熟的過程,處理技術(shù)質(zhì)量問題是型號裝備研制中的常態(tài)化工作,發(fā)生故障時需進行技術(shù)與管理“雙五”歸零已是行業(yè)內(nèi)的基本要求。然而,相關(guān)處理的效率、成效、效益,對于不同的人員、項目、機構(gòu)往往是不同的。應(yīng)當認真吸取問題與故障的經(jīng)驗教訓,深入總結(jié)問題與故障帶來的啟示,盡量提煉故障歸零的共性規(guī)律與方法,并將這些教訓、啟示、方法進行傳承與共享。
本文針對戰(zhàn)術(shù)導(dǎo)彈這一高度復(fù)雜系統(tǒng),根據(jù)筆者多年從事導(dǎo)彈系統(tǒng)故障歸零的經(jīng)驗,以故障為核心,追蹤故障從出現(xiàn)到解決的全過程;基于方法論的認識與應(yīng)用,從故障的定義及價值、故障歸零的思維方式、故障歸零方法等角度出發(fā),總結(jié)型號裝備研制故障歸零的共性規(guī)律與一般方法,闡述故障歸零關(guān)鍵環(huán)節(jié)的處理方法。梳理和總結(jié)相關(guān)內(nèi)容,期望杜絕型號裝備研制與使用過程中出現(xiàn)的重復(fù)性、簡單性、低層次故障,明顯減少因認識不足導(dǎo)致的高層次、復(fù)雜性問題,在故障出現(xiàn)后高效地完成技術(shù)歸零,也可為相關(guān)行業(yè)的裝備系統(tǒng)故障歸零提供理論和方法參考。
二、裝備系統(tǒng)故障的定義與價值
故障指設(shè)備、產(chǎn)品、系統(tǒng)在使用中出現(xiàn),因某種原因喪失執(zhí)行規(guī)定功能或不符合規(guī)定性能的偶然事故狀態(tài)??梢姡收嫌袃蓚€本質(zhì)特征:出現(xiàn)故障的對象是設(shè)備、產(chǎn)品、系統(tǒng),故障現(xiàn)象是不能執(zhí)行或完成規(guī)定的功能或性能。
與設(shè)計師的主觀意愿無關(guān),裝備研制過程中不可能完全杜絕故障。在故障發(fā)生后,應(yīng)積極開展故障歸零工作,需要端正態(tài)度、激發(fā)斗志,不能情緒沮喪、信心缺失。有必要充分挖掘故障的價值,支持開展故障歸零工作,提高故障歸零的效率;從故障中吸取經(jīng)驗,不斷提升設(shè)計能力和技術(shù)水平,以在后續(xù)的設(shè)計中“由此及彼、由表及里”地采取系統(tǒng)級預(yù)防措施,從發(fā)生故障后被動應(yīng)對式歸零轉(zhuǎn)變?yōu)槿粘J筋A(yù)防,杜絕同類故障的重復(fù)發(fā)生。在筆者看來,故障的價值主要包括4個方面。
一是發(fā)現(xiàn)新事實、提出新認識。當一型裝備完成設(shè)計后,裝備在工作中的所有表現(xiàn)都應(yīng)當與設(shè)計師的預(yù)先設(shè)計相吻合;如果出現(xiàn)了故障、偏離了預(yù)先設(shè)計的規(guī)定,就表明出現(xiàn)了新現(xiàn)象。許多新認識來自于新現(xiàn)象,新現(xiàn)象的出現(xiàn)有助于設(shè)計師發(fā)現(xiàn)設(shè)計方案中存在的缺陷和不足,從而提出新的認識。
二是開展新設(shè)計、積累新知識。出現(xiàn)故障的原因有很多,解決問題的途徑也有很多;可通過加強管理、驗證、檢驗等方式暫時解決問題,但更重要的是通過新設(shè)計、落實新工藝來徹底解決問題。故障的發(fā)生提供了開展新設(shè)計的最佳機遇,促使設(shè)計師重新審視并改進原有設(shè)計方案,追求從根本上避免故障的再次發(fā)生,實現(xiàn)故障“真”歸零。再將故障歸零過程中的新認識加以總結(jié),提煉為行業(yè)內(nèi)的新知識,促進行業(yè)發(fā)展質(zhì)量提升。相關(guān)新知識可以是工程理論突破、新的約束條件設(shè)定、新工藝落實、新工藝禁用、研制流程變更等,內(nèi)涵較為豐富。
三是完善新準則、避免新錯誤。每個企業(yè)都要在行業(yè)內(nèi)構(gòu)建自身的核心競爭力,需要具備完善的裝備設(shè)計體系,不僅包括已廣為傳播的科學知識,更重要的是以工程經(jīng)驗為標志的核心內(nèi)容,如被實踐證明可行/ 不可行的準則。完善準則有多種渠道,重要渠道之一即為故障歸零啟示的積累。對故障歸零過程中積累的新知識進行顯性化和再提煉,形成新的設(shè)計準則,指導(dǎo)設(shè)計師在后續(xù)其他裝備設(shè)計中不再發(fā)生同樣錯誤;同時通過舉一反三,使類似的錯誤不再發(fā)生,最大限度地發(fā)揮故障歸零的價值。
四是提升新能力、建立新規(guī)章。復(fù)雜裝備系統(tǒng)的研制過程必然面臨各類問題、出現(xiàn)各種故障,解決問題、排除故障的過程就是提升設(shè)計師及設(shè)計團隊能力的過程。應(yīng)當將故障歸零視為提升設(shè)計師個人與集體能力的機會,而設(shè)計師隊伍的設(shè)計能力正是企業(yè)的核心競爭力。國防工業(yè)每年出現(xiàn)的各類質(zhì)量問題中,超過50%的是低級、低層次技術(shù)問題或者管理與責任問題,這些故障歸零時不需要高深的科學知識,而需要嚴謹?shù)目茖W態(tài)度;不需要深刻的理論指導(dǎo),而需要精細的規(guī)則落實;不需要準確的數(shù)理計算,而需要遵從常識與規(guī)律。因此,許多技術(shù)問題在故障歸零時都需要進行管理歸零,以建立新規(guī)章、避免類似問題重復(fù)發(fā)生。
值得指出的是,技術(shù)歸零、管理歸零是質(zhì)量問題歸零的兩個重要方面,也是相輔相成的:前者主要關(guān)注問題的技術(shù)層面因素,即找出問題的直接原因并采取措施加以解決;后者從更宏觀的角度出發(fā),關(guān)注問題背后的管理層面因素,進而確保問題得到更全面、更有效的解決,也可通過改進管理流程、加強過程監(jiān)控、采取預(yù)防措施,從程序上預(yù)防問題的再次出現(xiàn)。
三、裝備系統(tǒng)故障歸零的思維方式
(一) 提升對故障的敏感度
故障歸零的根本目的是消除認知范圍內(nèi)故障再次發(fā)生、降低未認知故障發(fā)生概率。任何故障的發(fā)生都不是突然的,必然有著潛在根源以及初期表現(xiàn)形式。設(shè)計師需要提高對故障的敏感度,及早發(fā)現(xiàn)裝備運行過程中的各種異常,在“量變階段”“流程前端”即可準確地防微杜漸、識別故障,杜絕故障演化和進一步的危害。
一是要吃透技術(shù)、明晰狀態(tài)。無論是自主創(chuàng)新的技術(shù),還是引進研仿的技術(shù),設(shè)計師都應(yīng)在客觀條件許可的情況下,盡最大可能進行實踐和消化,以全面認識裝備并掌握技術(shù),實現(xiàn)設(shè)計源頭、工藝源頭“零隱患”的目標。對裝備研制和生產(chǎn)全過程的設(shè)計狀態(tài)、工藝狀態(tài)、試驗狀態(tài)進行有效控制,在產(chǎn)品研制和生產(chǎn)各階段進行嚴格的技術(shù)狀態(tài)管理;不得隨意變動成熟的設(shè)計、工藝、測試狀態(tài),確需變更的,必須遵循“論證充分、各方認可、試驗驗證、審批完備、落實到位”的原則。
二是重視數(shù)據(jù)、排查隱患。數(shù)據(jù)中含有關(guān)鍵信息,裝備性能的微小差異往往會在測試、試驗數(shù)據(jù)中有所體現(xiàn),設(shè)計師需提高對試驗數(shù)據(jù)的敏感性。裝備研制各個階段的試驗數(shù)據(jù)可用于縱向?qū)Ρ?;采用相似技術(shù)的不同型號裝備,可進行試驗數(shù)據(jù)的橫向?qū)Ρ?;對于超出裝備成功數(shù)據(jù)包絡(luò)的參數(shù),需進行理論分析、地面試驗考核,給出是否存在風險的明確結(jié)論。
三是做好“雙想”、預(yù)防風險。“雙想”指回想前階段工作中是否存在問題及隱患,預(yù)想下階段工作中可能出現(xiàn)的問題及隱患。通過“雙想”,及時分析并識別隱患的影響范圍與程度,制定相應(yīng)的控制措施與應(yīng)急預(yù)案;組織討論和審查,確保針對每項設(shè)計內(nèi)容均采取有效措施、形成閉環(huán),達到降低故障發(fā)生風險的目標。
(二) 系統(tǒng)思維的基本概念
科學認識世界的一般思維入口有4個:能量、空間、時間、信息。故障歸零類似,如“技術(shù)五歸零”中的定位準確、機理清楚、措施有效3個核心步驟,都是圍繞上述4個基本概念展開的。雖然相對論已將時空作為整體來看待,認為物理事件發(fā)生在四維時空簇里,但是絕大多數(shù)裝備設(shè)計涉及的時空內(nèi)物理事件,仍可由牛頓力學理論進行解釋(誤差可以忽略),具有簡單明了的特點。因此,分別從能量、空間、時間、信息4個基本概念出發(fā),探討與故障歸零之間的內(nèi)在關(guān)聯(lián),極為必要(見圖1)。

圖1 系統(tǒng)思維的4個基本概念
能量就是物質(zhì),也是物質(zhì)運動的量化轉(zhuǎn)換,不同物質(zhì)的運動形式對應(yīng)著不同的能量形式。裝備設(shè)計中的能量概念可從能量守恒、能量轉(zhuǎn)換兩個方面來理解。能量守恒指在封閉系統(tǒng)里能量既不會憑空產(chǎn)生,也不會憑空消失,只會從一種形式轉(zhuǎn)化為另一種形式,或者從一個物體轉(zhuǎn)移到另一個物體;在轉(zhuǎn)化或轉(zhuǎn)移過程中,總能量保持不變。從能量角度思考故障有價值,因為能量轉(zhuǎn)換會帶來作用方式的變化,而相同能量的不同作用方式通常導(dǎo)致不同的結(jié)果。
裝備設(shè)計中的空間概念可從3個方面來看待。① 空間是物質(zhì)存在的形式,即以結(jié)構(gòu)形式來表現(xiàn)空間,裝備設(shè)計的首項任務(wù)就是大致規(guī)劃設(shè)計對象的結(jié)構(gòu)空間、空間大小、誤差分配、形狀變化等。② 空間是物質(zhì)運動的場所,從運動學角度看飛行器設(shè)計就是不同坐標系之間的轉(zhuǎn)換與移動。坐標系一般有地球慣性坐標系、地理坐標系、地平坐標系、彈體坐標系、位標器框架坐標系等(以及數(shù)據(jù)信息處理所需的坐標系轉(zhuǎn)換)。③ 空間是信息波動的范圍,多數(shù)物理量及其關(guān)系都可通過(由笛卡爾坐標系確定的)二維平面空間來描述,也有一些物理量通過(由笛卡爾坐標系確定的)三維立體空間來描述。突破空間是用來衡量三維空間的思維慣性,可將信息與空間緊密聯(lián)系起來。在空間概念上,所有信息都存在動態(tài)范圍,控制信息并為信息量合理分配空間,可使信息始終保持在適當?shù)臓顟B(tài)。當裝備系統(tǒng)出現(xiàn)故障時,采用空間的概念去分析各種信息的變化與約束,有助于快速發(fā)現(xiàn)問題。
建立時間概念的基本目的之一是對時,即給各種事件的先后次序以“同時性”的定義,為各個人、各個事件、各種信息之間建立橫向聯(lián)系。建立時間概念的另一個基本目的是計時,即記錄各個事件、各種信息持續(xù)過程的縱向長短與橫向時序,因而時間被視為“運動的存在形式”??紤]到合適的時間尺度是描述事件的本質(zhì)要素,因而對于不同的事件需要采用不同的時間精度去測量,但不是精度越高越好,否則不僅成本高昂,還會掩蓋事件的本來形貌,甚至導(dǎo)致功能紊亂。
經(jīng)典觀點認為,信息是用來消除隨機不確定性的“東西”;信息就是信息,既非物質(zhì),也非能量。信息不是物質(zhì),盡管信息與物質(zhì)關(guān)系密切;物質(zhì)本身是否攜帶信息、攜帶何種信息,不是由物質(zhì)決定的。同一個事件、同一種物質(zhì),因不同的人解讀就會具有不同的信息,也因不同的環(huán)境和條件變化產(chǎn)生不同的信息。在多數(shù)時候,信息來自關(guān)聯(lián)關(guān)系。可以認為,信息是物質(zhì)運動及其關(guān)聯(lián)關(guān)系的意義與價值。系統(tǒng)的功能性能是由信息來定義的,系統(tǒng)有序性的形成與破壞、建構(gòu)與解構(gòu),通常可以表現(xiàn)為信息的有序或失序。當系統(tǒng)發(fā)生故障時,可以通過系統(tǒng)的信息失序來快速定位故障。
(三) 常用思維方式
思維方式類型眾多,常用的有正向思維、逆向思維、發(fā)散思維、聚合思維。一些思維方式在應(yīng)用于正向設(shè)計、故障歸零時并無不同,而另一些思維方式則存在明顯不同。例如,正向設(shè)計更多采用正向思維、統(tǒng)一思維、取真思維,故障歸零傾向采用逆向思維、矛盾思維、排假思維等。
正向思維從原因或前提出發(fā),尋找結(jié)果與結(jié)論;逆向思維與之相反,從結(jié)果或結(jié)論出發(fā)尋找原因與前提。故障歸零采用逆向思維,即從已經(jīng)出現(xiàn)、為設(shè)計預(yù)期之外的結(jié)果出發(fā),尋找造成結(jié)果的前提條件。在正向思維占主導(dǎo)地位時,很難找到故障部位,這是因為如果正向設(shè)計能夠發(fā)現(xiàn)缺陷,通常在設(shè)計過程中就會加以解決;換言之,已經(jīng)在設(shè)計中認識到的問題不應(yīng)該再次出現(xiàn),否則就會發(fā)生責任故障(而不是認識不足產(chǎn)生的故障)。在多數(shù)情況下,故障歸零交替使用正向思維和逆向思維。
發(fā)散思維、聚合思維是一對有邏輯聯(lián)系的思維方式。無論是正向設(shè)計還是故障歸零,抑或是解決其他新面臨的問題,設(shè)計師總是首先使用發(fā)散思維,即大膽創(chuàng)新與假設(shè),再采用聚合思維,即小心求證與落實。
(四) 故障排查常用的思維方法
1. 排除法
排除法是遇到異常事件時最常用的方法,也是最符合邏輯、效率最高的方法。應(yīng)用排除法時注重以下內(nèi)容:從結(jié)構(gòu)可分解的角度進行排除,從功能與性能的角度進行排除,從各種信息及其內(nèi)在邏輯關(guān)系的角度進行排除,從客觀條件(如設(shè)備、環(huán)境、相關(guān)系統(tǒng)等)角度進行排除,從人的因素角度進行排除。在明確待排除的因素后,可采用兩個方法來達到排除目的:根據(jù)因果律進行邏輯演繹,推導(dǎo)出該因素與故障現(xiàn)象之間是否存在必然聯(lián)系,稱為理論分析法;采用試驗驗證該因素存在時故障現(xiàn)象是否會發(fā)生,稱為試驗驗證法。
在某型號導(dǎo)引頭研制初期進行振動試驗時,探測信號噪聲急劇放大兩個數(shù)量級以上,出現(xiàn)了典型的動能轉(zhuǎn)變?yōu)殡娦盘柕鸟詈瞎收?。類似故障的原因有電磁兼容問題、探測器硬件問題、位標器故障等,很難從理論分析角度闡明。為此制定了排除驗證方案:開展電磁兼容試驗,排查薄弱環(huán)節(jié),無果;開展探測器振動試驗,無果;開展位標器單獨振動試驗,無果;開展電子艙單獨振動試驗,無果;考慮到電子艙內(nèi)共有4塊電路板,為確保安裝堅固又在艙內(nèi)添加了隔離支撐板,在振動過程中電路板空間位移可能較大,分布的電容或電感可能與位標器的弱信號耦合產(chǎn)生不良后果,決定將隔離支撐板材料由導(dǎo)電的鋁板更換為絕緣的膠木板,故障現(xiàn)象消失。
2. 對比法
對比法細分為條件不變法、條件變化法、互換法。① 條件不變法主要在全部條件不變、制定好增加測試信息的情況下進行重復(fù)試驗,對比檢驗故障現(xiàn)象的可重復(fù)性。重復(fù)性試驗獲得的增量信息對認識問題的性質(zhì)具有重要價值,沒有信息增量的重復(fù)基本上是無價值的。開展條件不變的重復(fù)試驗受到約束:盡可能保護現(xiàn)場,保證環(huán)境條件不變;盡可能保護產(chǎn)品,在試驗前后故障產(chǎn)品的技術(shù)狀態(tài)不變。② 條件變化法主要在其他條件不變的情況下改變其中1個條件,驗證故障產(chǎn)品功能與性能隨變化條件而改變的規(guī)律性,再與故障現(xiàn)象進行對比。應(yīng)用條件變化法受到約束:在不受其他條件限制的情況下,每次只改變1個條件進行對比,以便準確判斷條件與現(xiàn)象之間的聯(lián)系規(guī)律;條件改變既不受原設(shè)計范圍的限制,也不能損壞產(chǎn)品,以便摸清產(chǎn)品的能力所在;條件變化的規(guī)律與產(chǎn)品面臨的真實條件之間具有真實性,如溫變速度與時間等。③ 互換法主要在相同環(huán)境條件、相同技術(shù)狀態(tài)下進行產(chǎn)品不同樣本之間的對比?;Q具有多種層次,如在同一內(nèi)艙段更換導(dǎo)引頭、飛控設(shè)備、發(fā)動機,不同艙段之間互換,更換飛行器、發(fā)射裝置甚至載機等?;Q法是提高故障歸零效率的方法,不是認識故障機理的方法。
生產(chǎn)線上出現(xiàn)問題后最常用的方法是對比法,這是因為生產(chǎn)線相較研制更加追求效率,從資源的角度也更具條件,從技術(shù)狀態(tài)的角度一般不涉及狀態(tài)變更。有時甚至將不同零件的互換組裝定義為可許可的正常工藝。實際上,生產(chǎn)線上用真實零組件作為檢測手段對互相配合的其他零組件進行測量,是最為典型的對比法應(yīng)用。
某演示驗證項目在外場進行地面發(fā)射試驗,在振動試驗、-20 ℃溫度試驗完成后進場,第三天上午在外場開展測試時出現(xiàn)了自檢不通過,而裝備之前僅進行了跨城市轉(zhuǎn)運并在外場庫房內(nèi)(溫度約為-10 ℃)放置了1個晚上。分析認為該故障應(yīng)由環(huán)境條件變化引起,決定將裝備放置于有暖氣的房間內(nèi)再檢測產(chǎn)品狀態(tài);2 h后自檢恢復(fù)正常,故障定位于電容低溫特性不滿足要求。裝備在溫度為-10 ℃的廠房內(nèi)放置1個晚上后測試出問題、而在-20 ℃溫度試驗中卻不出問題,原因是進行-20 ℃溫度試驗時裝備僅進行了2 h的保溫,保溫時間不夠造成裝備內(nèi)部溫度沒有達到-20 ℃,也就無法實現(xiàn)通過溫度試驗發(fā)現(xiàn)裝備設(shè)計缺陷的目的。
3. 因果律分析法
因果律分析法堅信一切現(xiàn)象皆有原因,一切現(xiàn)象都是在給定前提條件下演化的結(jié)果。因果律是伽利略 ? 笛卡爾 ? 牛頓科學方法體系的核心,即1個可觀察事件的發(fā)生,背后必有至少1個動因。在工程研究中,裝備的數(shù)量通常較多,故障結(jié)果是概然性的;但對于每次出現(xiàn)的問題或故障,可以堅持必然性因果律。盡管可能存在受條件限制而找不出真正原因的情況,但這并不是否認原因與結(jié)果之間的必然性關(guān)系。而且,堅持因果律思維僅是堅定找出問題的信念,運用因果律迅速找到問題的根源取決于對因與果內(nèi)在機理的認識。實際上,故障歸零時將伴隨事件說成因果事件、倒因為果的錯誤認定等經(jīng)常發(fā)生,特別需要立足科學素養(yǎng)進行辨識和確認。
4. 質(zhì)量互變分析法
質(zhì)量互變分析法是故障排查的常用方法,認為事物從量變到質(zhì)變、從質(zhì)變到量變互相轉(zhuǎn)化,遵從一定的法則,質(zhì)不僅是量的堆積,量也不僅是質(zhì)的分解。工程上通常需要通過質(zhì)與量的綜合分析才能確認問題的性質(zhì)。質(zhì)是要把握的目標,只要不發(fā)生質(zhì)的變化,工程上一般是可以接受的;量是作出判斷的依據(jù),量的大小是否產(chǎn)生質(zhì)的影響是方案設(shè)計時反復(fù)權(quán)衡的對象。一旦發(fā)生質(zhì)的變化,結(jié)果非常直觀,很容易認識到,但量變的異常在沒有引起質(zhì)變前往往會被忽視,因而保持對量變的敏感性是預(yù)防故障的重要手段,也是故障排查時判斷定位是否準確、機理分析是否清楚的重要依據(jù)。
某型裝備在系統(tǒng)聯(lián)試過程中出現(xiàn)突然掉電現(xiàn)象。經(jīng)查,突然掉電是因供電繼電器損壞造成的,而繼電器損壞的失效機理定位于高壓擊穿。在故障復(fù)現(xiàn)過程中,高壓擊穿確實能復(fù)現(xiàn)繼電器損壞的故障,但電氣系統(tǒng)設(shè)計中沒有足夠高的電壓(可導(dǎo)致繼電器的擊穿),在發(fā)生故障時也沒有監(jiān)測到高壓信號。該故障多次出現(xiàn),且通電次數(shù)越多的裝備越容易出現(xiàn),似有積累效應(yīng)。后續(xù),采用帶寬更高的示波器進行監(jiān)測,發(fā)現(xiàn)上電時刻出現(xiàn)了高頻震蕩,表明該故障確實是1個從量變到質(zhì)變的過程。繼電器的高頻震蕩擊穿形態(tài)與高壓擊穿形態(tài)一致,也是行業(yè)內(nèi)首次認識到的故障現(xiàn)象。
四、裝備系統(tǒng)故障歸零的方法及流程
“故障五歸零”是行業(yè)內(nèi)出現(xiàn)故障后處理問題的標準方法,具有邏輯嚴謹、行之有效的特點;主要涉及故障定位、故障原因與機理分析、故障復(fù)現(xiàn)設(shè)計、改進措施驗證、舉一反三、提煉準則與啟示等6個主要環(huán)節(jié)。盡管相關(guān)方法已有成熟運用,但各個故障歸零環(huán)節(jié)涉及的具體方法論及其應(yīng)用要點,歸納總結(jié)甚少。
(一) 故障定位
當裝備出現(xiàn)非預(yù)期的運行狀態(tài)時,首先需要明確是否發(fā)生故障,即故障確認是故障定位的第一步,快速定位故障的原因和位置是解決問題的關(guān)鍵。物理現(xiàn)象、殘骸、數(shù)據(jù)是裝備故障分析的主要依據(jù),故障樹分析是挖掘故障原因的有力工具。
故障發(fā)生時可能伴隨各種現(xiàn)象,分別針對這些現(xiàn)象開展物理分析、數(shù)學分析、綜合分析,合稱現(xiàn)象分析。① 物理分析在故障分析時通常率先開展,通過因果律定性分析,找出現(xiàn)象與原因之間的機理層面聯(lián)系,盡快框定引發(fā)故障的主要因素,使故障歸零工作明確主攻方向。② 數(shù)學分析主要包括統(tǒng)計概率分析、物理層面的定量關(guān)系分析。統(tǒng)計概率分析在故障現(xiàn)象可重復(fù)發(fā)生時尤其有效,主要通過統(tǒng)計故障現(xiàn)象發(fā)生時伴隨條件出現(xiàn)的頻次,尋找條件與現(xiàn)象之間的關(guān)系,然后以確認的條件為前提,分析故障現(xiàn)象的內(nèi)在機理;開展統(tǒng)計時,盡可能量化因素,尋找量變與質(zhì)變之間的平衡點,最終確定可能造成故障的主要條件因素。③ 綜合分析即系統(tǒng)分析,不能停留在已有現(xiàn)象的物理和數(shù)學分析上,還要從全系統(tǒng)的角度出發(fā),設(shè)想并推演更多條件變化情況下可能出現(xiàn)的其他現(xiàn)象,也需開展虛擬仿真分析、系統(tǒng)級試驗分析,以便獲得更多的數(shù)據(jù)與現(xiàn)象支持。
殘骸是最寶貴的資源之一,其價值體現(xiàn)在3個方面。① 確定故障部位。仔細檢查殘骸,可以確定故障發(fā)生的具體部位,如電路板、機械部分、其他部件等,有助于縮小故障定位的范圍,深入分析故障的原因。② 判斷故障性質(zhì)。分析殘骸并判斷故障的性質(zhì),如短路、斷路、其他性質(zhì)等,有助于了解故障對裝備的影響程度,快速制定對應(yīng)的解決方案。③ 推測故障原因。觀察和分析殘骸,推測故障的原因,如殘骸表現(xiàn)為裝備遭受物理損壞,即可推測設(shè)備可能由于使用環(huán)境惡劣而發(fā)生故障。
數(shù)據(jù)是支持故障定位的寶貴資源,數(shù)據(jù)分析是故障定位中最基礎(chǔ)的工作。在收集殘骸的同時,注意收集相關(guān)的數(shù)據(jù),盡量把看似無關(guān)的數(shù)據(jù)收集完整。系統(tǒng)的單個功能或性能往往是數(shù)個分系統(tǒng)聯(lián)合正確工作的結(jié)果,因而單個故障現(xiàn)象通常通過多個數(shù)據(jù)一起表現(xiàn)出來。準確判斷哪些異常數(shù)據(jù)是原因、哪些異常數(shù)據(jù)是結(jié)果,既要立足對裝備系統(tǒng)工作原理的深刻認識,也要靈活運用專業(yè)知識。數(shù)據(jù)的統(tǒng)計分析、數(shù)理分析是工程上常用的分析方法,尤其在低信噪比探測系統(tǒng)中統(tǒng)計分析占有重要地位。在開展統(tǒng)計分析時,將已獲得的表觀測量數(shù)據(jù)精準轉(zhuǎn)換到對應(yīng)維度上進行分析,對最終確定故障、認識機理具有重要影響,有時甚至是決定性的影響。例如,常用采樣記錄的數(shù)據(jù)是電壓信號,有時需要轉(zhuǎn)換到功率維度來認識,有時又需要轉(zhuǎn)換到能量維度來認識,在問題判斷時應(yīng)選取適宜的物理量。
故障樹分析已是成熟方法,理論基礎(chǔ)完備,自20世紀60年代投入應(yīng)用后取得了極大成功;通過底事件、頂事件之間的機理聯(lián)系,貫穿現(xiàn)象分析、殘骸分析、數(shù)據(jù)分析。故障樹分析的正向設(shè)計流程為:選擇合理的頂事件→建造故障樹→故障樹定性分析→故障樹定量分析→確定設(shè)計上的薄弱環(huán)節(jié)→采取措施提高系統(tǒng)可靠性。故障樹分析的故障歸零流程為:確認故障頂事件→建造(完善)故障樹→故障樹定性分析→故障樹定量分析→確定故障底事件與原因→采取措施提高系統(tǒng)可靠性。通過故障樹分析,選出主要故障模式,再簡化形成只包含主要故障模式關(guān)系的故障樹,據(jù)此開展完整的機理分析;如果主要故障模式不止1個,應(yīng)分開詳細描述。絕大多數(shù)故障都是單點故障,兩點或多點故障的概率不超過1%。
(二) 故障原因與機理分析
查找故障原因首先要秉持科學的態(tài)度,開展故障機理分析也需有科學的常識和清晰的解釋。機理是科學問題,在進行故障樹分析時已經(jīng)針對各種故障模式開展了機理分析,只是相關(guān)機理分析仍處于假設(shè)狀態(tài),尚不明確且不唯一。通過可控的故障復(fù)現(xiàn)試驗檢驗后,故障定位趨于明確,故障發(fā)生的機理將得到清晰、直接的科學描述;若故障定位過程簡單而機理不簡單,就需要在機理分析中給出詳盡的描述;若故障機理在定位分析過程中已經(jīng)有較清晰的表述,則機理分析僅需簡明、準確的結(jié)論性內(nèi)容,清楚表達科學上的因果關(guān)系即可。在應(yīng)用科學研究中,極少存在機理解釋超出科學知識范疇、需要新的科學概念的情況;為了通過故障歸零達到學習與提升目的、將經(jīng)驗知識積累起來變成顯性知識和組織知識,除了總結(jié)科學認識,還需圍繞原因進行歸納。
查找故障原因應(yīng)基于科學的方法。在進行故障原因和機理分析時,需要做到物理概念正確,“眼睛向內(nèi)找問題、刀口向里找原因”,敢于主動暴露問題、自我剖析原因。故障原因分析方法通常分為設(shè)計準則分析、條件分析、流程分析等[15]。① 設(shè)計準則分析時首先從設(shè)計與工藝出發(fā),判斷是否由于設(shè)計師未能遵守本專業(yè)設(shè)計準則而造成故障。設(shè)計準則包括性能設(shè)計、通用質(zhì)量特性設(shè)計、工藝設(shè)計。在多數(shù)情況下,故障與需求定義不明確、原理設(shè)計不精細、工藝設(shè)計不完善相關(guān),原因在于現(xiàn)有設(shè)計準則未得到徹底遵守,沒有認識到新知識、新機理。這是提煉一條或多條新準則的時機。② 條件分析以故障為核心,按照“故障零部件 ? 組件 ? 分系統(tǒng) ? 系統(tǒng) ? 生產(chǎn)制造環(huán)節(jié) ? 試驗與工作條件”的順序,從同心圓的圓點向外發(fā)散,列出影響試驗結(jié)果的各種因素;再從同心圓的最外圈開始分析排查,確定故障發(fā)生時的前提條件,分析前提條件與故障之間存在因果關(guān)系的可能性。條件排查集中在以下方面:環(huán)境條件,如氣候環(huán)境、電磁環(huán)境、動力環(huán)境等;產(chǎn)品狀態(tài),如技術(shù)狀態(tài)、批次管理狀態(tài)、質(zhì)量問題處理狀態(tài)等;基礎(chǔ)條件,如設(shè)備狀態(tài)完好性、工藝文件規(guī)范性、數(shù)據(jù)記錄可信性等;人員因素,如加工人員、裝配人員、測試人員、使用操作人員的能力與變化情況。③ 許多故障源自流程不規(guī)范或者未規(guī)范地遵守流程。例如,制造流程不科學、不規(guī)范、對人員素質(zhì)依賴度高,造成制造產(chǎn)品的一致性與穩(wěn)定性不佳;返工流程不完備,想當然地等同于首次制造或者隨意增減工步,帶來制造缺陷;試驗流程不真實,過于追求效率而沒有嚴格保持科學性,導(dǎo)致潛在問題不能暴露;檢測流程前松后嚴,忽略有些組件的部分性能在系統(tǒng)狀態(tài)下已經(jīng)不可能被測試覆蓋,存在驗證不充分的隱患。
(三) 故障復(fù)現(xiàn)設(shè)計
故障復(fù)現(xiàn)指在故障歸零過程中為了定位和解決問題,針對性地設(shè)計故障復(fù)現(xiàn)試驗,嘗試重現(xiàn)已發(fā)生的故障或錯誤的過程。故障復(fù)現(xiàn)是“技術(shù)五歸零”中的重要環(huán)節(jié),與故障重復(fù)是不同的概念。故障重復(fù)指在原因不明的情況下同樣的故障穩(wěn)定重復(fù)出現(xiàn)或不穩(wěn)定多次出現(xiàn),這種重復(fù)對故障歸零沒有價值;只有故障重復(fù)時能夠增加新的監(jiān)測信息才有價值??勺匀辉佻F(xiàn)、不可自然再現(xiàn)的故障,在設(shè)計師不理解機理的情況下都不屬于設(shè)計能力控制下的再現(xiàn)。需要采取針對性措施,使主要故障模式在思維主導(dǎo)下變成必然事件;根據(jù)認定的主要故障模式,開展故障再現(xiàn)設(shè)計試驗。在假定主要故障模式成立、機理清楚的情況下,開展故障復(fù)現(xiàn)試驗時能夠復(fù)現(xiàn)故障,能夠倒推主要故障模式假設(shè)的正確性。
故障機理分析只有在得到試驗支持后才視為可信。故障復(fù)現(xiàn)首先是機理性復(fù)現(xiàn),機理性復(fù)現(xiàn)可在任何解釋故障現(xiàn)象的對象上實施,包括臨時設(shè)計的專用故障復(fù)現(xiàn)產(chǎn)品。故障復(fù)現(xiàn)在真實產(chǎn)品上實施是常態(tài),不在真實產(chǎn)品上實施一定面臨成本、方法可行性、效率等因素的制約;在真實產(chǎn)品上復(fù)現(xiàn)故障時,一般首先在組件級產(chǎn)品上實施,既有降低成本、提高效率的考量,也有組件級的故障一般與系統(tǒng)其他部分沒有耦合關(guān)系的原因。在系統(tǒng)級開展故障復(fù)現(xiàn),雖然成本高、效率低,但仍是優(yōu)先選擇,這是因為涉及故障現(xiàn)象的各部分是緊耦合的,或者系統(tǒng)與設(shè)備、系統(tǒng)與環(huán)境、系統(tǒng)與條件緊耦合,故障復(fù)現(xiàn)的置信度最高,可使故障歸零過程“少走彎路”。
故障復(fù)現(xiàn)設(shè)計的根本在于“真”試驗,復(fù)現(xiàn)真實環(huán)境是故障復(fù)現(xiàn)可信的前提條件,而構(gòu)造真實的試驗環(huán)境是極為困難的。例如,在空中發(fā)射試驗中發(fā)生的故障,在地面通常很難復(fù)現(xiàn)空中裝備工作的實際工況。某型號裝備的空中折斷故障歸零“走了彎路”,地面不好復(fù)現(xiàn)故障是重要原因之一。在認識到電路板可能是裝備空中燒毀的原因后,進行了故障復(fù)現(xiàn)試驗;在地面采用熱風槍(約700 ℃)吹電路板可以復(fù)現(xiàn)空中數(shù)據(jù),但用時約為20 s,與空中時間(1~2 s)對不上。該故障復(fù)現(xiàn)試驗沒有真實模擬實際工況:航空發(fā)動機尾流的余溫(2000~3000 ℃);航空發(fā)動機尾流含有的多種粒子帶有熱容,而空氣基本上沒有熱容;有些粒子具有導(dǎo)電性,更容易破壞電路板的拓撲結(jié)構(gòu)。最終采用真實發(fā)動機點火模擬空中過程,才完好復(fù)現(xiàn)了相應(yīng)故障。
在主要故障模式成立、機理清楚的條件下,由于控制了盲目嘗試范圍,故障復(fù)現(xiàn)通常更為高效,但存在依賴事先了解故障的局限性。如果故障模式或機理不清楚,則復(fù)現(xiàn)可能失敗,此時需重新審視故障假設(shè),采取更廣泛的故障排查策略,重新設(shè)計故障復(fù)現(xiàn)試驗。
(四) 改進措施驗證
故障改進措施需要有效、充分、無害,三方面的要求逐步提高。在故障出現(xiàn)后,通常需要立即判定問題的性質(zhì),科學評估故障產(chǎn)生的后果與危害,以便合理決策正在進行中的工作安排。工程項目涵蓋質(zhì)量、進度、費用3個維度的目標,任一維度出現(xiàn)的問題都應(yīng)得到高度重視;即使技術(shù)層面出現(xiàn)故障,也不必然導(dǎo)致停工改進,而是根據(jù)問題的性質(zhì)及危害程度作權(quán)衡。因此,故障發(fā)生后整個工程項目在風險可控或可接受的情況下許可現(xiàn)場采取臨時處理措施,較為常見?,F(xiàn)場采取的措施必須有效,但因現(xiàn)場采取的方案多是清楚機理后的簡單方案,有效性驗證可以相應(yīng)簡化,但要對有效性驗證的充分性、采取措施的副作用進行反復(fù)質(zhì)疑與評估。
只要機理清楚、原因明確,一般情況下改進措施都具有良好的針對性。然而,僅是原理正確并不充分,還需要采用試驗數(shù)據(jù)來答復(fù)相關(guān)措施的有效性,通常包括數(shù)字虛擬驗證、實物試驗驗證。驗證試驗主要分為:數(shù)字仿真(含虛擬樣機、快速原型)驗證、分系統(tǒng)級驗證、系統(tǒng)級驗證、靜態(tài)驗證、動態(tài)驗證、室內(nèi)驗證、戶外驗證、地面驗證、環(huán)境適應(yīng)性驗證、能力邊界摸底驗證、空中驗證(含空中系留、空中靶試)等。驗證試驗的目標包括驗證解決措施的有效性、驗證解決措施的副作用,在開展驗證試驗時需全面觀察和記錄系統(tǒng)的數(shù)據(jù),而不只是與措施有關(guān)的數(shù)據(jù)。開展驗證試驗,需要確認系統(tǒng)技術(shù)狀態(tài)的正確性、參試設(shè)備的完備性、試驗方法的合理性、環(huán)境條件的真實性,最終明確措施驗證的充分性和有效性。
驗證措施的有效性可稱為“閉區(qū)間”驗證,目的明確且范圍有限,方法合理可行,較容易實施。驗證措施的無害性可稱為“開區(qū)間”驗證,如復(fù)雜軟件更改后要證明改動部分的無害性,“域外”可能性不可窮舉,加大評估風險和驗證難度。對于故障糾正措施,偶爾會出現(xiàn)機理分析與認識不是特別清楚、需采取多方聯(lián)合施措的情況,需要謹慎確認此狀態(tài)下措施的有效性與無害性、驗證的充分性。
(五) 舉一反三
故障都是在規(guī)定條件下發(fā)生的,但設(shè)計改進不能采用判例法來完成,因而需要對故障進行舉一反三。在開展故障歸零舉一反三工作時,設(shè)計師一般能做到檢查型號裝備的部件內(nèi)是否存在類似問題,但多數(shù)情況下也僅如此,這對認識故障的危害及價值是明顯不夠的。需要結(jié)合故障的性質(zhì),開展不同層次的舉一反三工作。
一是在部門內(nèi)的型號線上通報故障及其歸零情況。這一層級是部門內(nèi)的型號線級,開展舉一反三工作的目的是:已出現(xiàn)的問題得到歸零,消除任務(wù)因故障未歸零而受到的影響;促進型號線梳理部件的技術(shù)質(zhì)量狀態(tài),排查存在此類問題或隱患的可能性并盡早消除;引起型號線全體人員的警覺,確保不再出類似問題。
二是在部門內(nèi)的不同型號線之間通報故障及其歸零情況,要求其他型號一起開展舉一反三工作。例如,某型號裝備出現(xiàn)了電源模塊故障,需要至少在部門內(nèi)通報到各個型號線,檢查此模塊是否有應(yīng)用、是否同批次、是否有類似問題。開展這一層級舉一反三目工作的目的是:促使部門內(nèi)的故障信息共享,一起借鑒解決問題的經(jīng)驗,共同吸取得到的教訓,避免其他型號線因重復(fù)出現(xiàn)相同或類似問題而付出不必要的代價。
三是在本單位范圍內(nèi)開展舉一反三工作,至少應(yīng)在本單位內(nèi)一定級別的層次上建立故障通報制度。針對不同類型、不同級別的故障,分別給出紅、橙、黃、藍、綠等級的警示色標;當故障問題在橙級以上時,強制要求各其他型號線給出書面形式的舉一反三自查報告,闡明是否有類似問題或隱患。開展單位層級的舉一反三工作,需對出現(xiàn)的故障性質(zhì)進行分類,避免過多付出成本、收益明顯不匹配的情況。在本單位內(nèi)開展舉一反三工作,利于從專業(yè)角度持續(xù)積累經(jīng)驗知識。
四是對于在行業(yè)內(nèi)造成重大影響的故障,如果故障發(fā)生的機理或原因具有共性,應(yīng)在行業(yè)內(nèi)開展舉一反三工作。裝備管理部門經(jīng)常性發(fā)布質(zhì)量案例與警示,要求開展質(zhì)量自查與互查,不定期統(tǒng)一安排的質(zhì)量月活動等,都可視為舉一反三工作內(nèi)容。例如,航天系統(tǒng)已將集團內(nèi)開展舉一反三活動制度化,如某款元器件發(fā)生了質(zhì)量問題,集團內(nèi)各型號裝備都要檢查此型號的該批產(chǎn)品使用情況,如果采用需要復(fù)查確認甚至更換;某型數(shù)字信號處理開發(fā)環(huán)境提供的字符串函數(shù)運行不穩(wěn)定,導(dǎo)致軟件編譯后產(chǎn)生了極小概率(<1%)的不確定性,為此在集團內(nèi)通報并不再允許使用此開發(fā)環(huán)境提供的字符串函數(shù)。
(六) 提煉準則與啟示
傳統(tǒng)的故障歸零在完成舉一反三工作后即結(jié)束。然而,現(xiàn)有的舉一反三機制對獲得的經(jīng)驗教訓長效化作用不明顯,還需開展每個故障的啟示總結(jié)工作。在總結(jié)啟示時,多數(shù)情況下原因比機理更重要。通過總結(jié)故障啟示,將經(jīng)驗知識理論化、隱性知識顯性化、個人知識組織化,確保知識積累、知識傳承、知識管理、知識共享制度化,不斷積累具有自主知識產(chǎn)權(quán)的設(shè)計準則。
沒有總結(jié)就沒有提高與升華。沒有啟示總結(jié),故障的多數(shù)價值就無法實現(xiàn)。發(fā)生的故障如果沒有違反現(xiàn)有設(shè)計準則,則一定能夠提煉出來一條或多條新準則;只有提煉新準則、完善新規(guī)范,才能增強新能力、避免新錯誤、消滅新故障。在復(fù)雜系統(tǒng)工程的研制過程中,故障是不可能完全杜絕的,但已經(jīng)發(fā)生過、低層次、重復(fù)性、常識性的故障必須杜絕。這些故障一旦發(fā)生,必然會付出高昂代價,而又不產(chǎn)生任何價值。在遵守設(shè)計規(guī)范、落實管理要求外,總結(jié)好故障啟示是必經(jīng)之路。
通過準則的提煉和啟示,設(shè)計師隊伍將在技術(shù)和管理雙歸零之外做到“思想歸零”,進而在后續(xù)裝備設(shè)計中更加謹慎,實現(xiàn)由應(yīng)急處置向預(yù)防發(fā)生的轉(zhuǎn)變,最大限度地避免同類故障的再次發(fā)生。通行的故障歸零流程如圖2所示。

圖2 裝備系統(tǒng)故障歸零流程圖
五、結(jié)語
裝備研制是技術(shù)上不斷攻堅克難、走向成熟的過程,處理技術(shù)質(zhì)量問題是裝備研制過程中的常態(tài)化工作,在發(fā)生故障時快速準確地完成故障歸零是每個設(shè)計師追求的工作目標。本文解析了裝備系統(tǒng)故障的定義及其價值,明晰了故障歸零的思維方式,結(jié)合工程應(yīng)用實踐論述了故障歸零的方法及流程,對于各類重大裝備系統(tǒng)研制與應(yīng)用具有共性和基礎(chǔ)性參考意義。相關(guān)內(nèi)容源自筆者多年從事戰(zhàn)術(shù)導(dǎo)彈工程研制、較多參與裝備故障歸零的經(jīng)驗,通過歸納總結(jié)闡明了從問題和故障中發(fā)現(xiàn)規(guī)律性認識、獲得可借鑒性啟示等內(nèi)容,可視為“經(jīng)驗知識理論化、個人知識組織化、隱性知識顯性化”的具體實踐。
實踐方法的理論化難度很大,加之各類裝備系統(tǒng)在共性的基礎(chǔ)上仍有鮮明的個性,本研究僅為理性探討和初步構(gòu)建,仍然不顯完備。然而,若相關(guān)內(nèi)容能起到拋磚引玉的作用,啟發(fā)行業(yè)內(nèi)參與故障歸零的設(shè)計師和管理者去積極思考和深入實踐,也就達到我們的研究初心了。

來源:中國工程科學