您當前的位置:檢測資訊 > 行業(yè)研究
嘉峪檢測網(wǎng) 2021-04-13 15:37
2020年1月初,世界衛(wèi)生組織(WHO)發(fā)布了有關新冠肺炎的病例通報。然而早在2019年12月初,一家專門通過人工智能監(jiān)測傳染病傳播的加拿大公司就警告過它們的客戶會有相關疫情的風險。這一警告來自網(wǎng)絡上對動植物傳染病的新聞報道和文章的AI分析。同時,對全球機票數(shù)據(jù)的分析可以讓AI準確預測病毒數(shù)日后的傳播情況。
案例揭示了AI和機器學習(ML)的能力。這兩者都越來越多地通過集成電路的形式被運用于醫(yī)療器械領域。盡管使用AI同樣有風險,但常用標準和規(guī)范尚未包含對這些創(chuàng)新技術的具體要求。比如歐盟的醫(yī)療器械法規(guī)(MDR)僅提出了一般性軟件要求。根據(jù)規(guī)定,必須按照當前技術水平、為目標用途開發(fā)和生產(chǎn)軟件。
這也適用于AI,必須確保功能的可預見性和可重復性,這反過來又需要經(jīng)過驗證和確認的AI模型。軟件標準IEC 62304和IEC 82304-1就提出了驗證和確認要求。但是傳統(tǒng)軟件和搭配機器學習的人工智能仍然有根本上的區(qū)別。機器學習基于使用數(shù)據(jù)訓練模型,而不是對流程進行明確的編程。隨著訓練的進行,模型會通過改變“超參數(shù)”不斷改善和優(yōu)化。
數(shù)據(jù)質(zhì)量的好壞是AI進行預測的關鍵。常見問題包括監(jiān)督機器學習模型中的偏差、模型過度或低度擬合以及標簽錯誤。測試揭示了這些問題,并顯示偏差和標簽錯誤常常是缺乏多樣性的訓練數(shù)據(jù)無意識導致的。以一個被訓練用于識別蘋果的AI模型為例。如果用于訓練模型的數(shù)據(jù)主要是不同形狀和大小的青蘋果,模型可能會將綠色的梨子認成蘋果卻無法識別紅蘋果。在特定環(huán)境下,某些方面無意識的共同特性可能被AI視為重要特性,盡管它們毫不相關。數(shù)據(jù)的統(tǒng)計分布必須做出合理調(diào)整,以符合真實環(huán)境。比如,AI在識別人類時,兩條腿不應被視為關鍵因素。
標簽錯誤也可能是主觀性(“疾病嚴重程度”)或標識符不適合模型用途導致的。為大量數(shù)據(jù)貼上標簽并選擇合適的標識符是一個需要大量時間和成本的流程。有時只有很少一部分數(shù)據(jù)會進行人工處理,用于訓練AI,然后指示AI標簽剩余數(shù)據(jù)。這個過程并不能保證沒有錯誤,也就是說錯誤會重復出現(xiàn)。
成功的重要因素就是數(shù)據(jù)質(zhì)量和使用的數(shù)據(jù)量。目前,根據(jù)經(jīng)驗估計一個算法所需的數(shù)據(jù)量少之又少。雖然基本上只要數(shù)據(jù)的質(zhì)量和數(shù)量足夠高,即便是簡單的算法也能發(fā)揮良好的作用,但大多數(shù)情況下能力受限于(標簽)數(shù)據(jù)的可用性和計算能力。所需數(shù)據(jù)的最小范圍取決于問題和AI算法的復雜度,非線性算法所需的數(shù)據(jù)要多于線性算法。
通常70-80%的可用數(shù)據(jù)用于訓練模型,其他數(shù)據(jù)用于驗證預測。用于AI訓練的數(shù)據(jù)應涵蓋特性的最大帶寬。
示例:識別膝蓋骨關節(jié)炎
黑盒AI顯示,以下圖片所屬的兩位患者中的一人將在未來三年發(fā)展成膝蓋骨關節(jié)炎。
這是人眼看不到的,在當前的診斷無法確認的情況下,患者還會選擇手術嗎?(以下圖片來自Spectrum IEEE.org在2018年8月發(fā)表的“Making Medical AI Trustworthy”(讓醫(yī)療AI更加可信) ,最初來自Osteoarthritis Initiative。這篇文章反映的是作者的觀點,不一定代表NIH或?qū)⒊跏紨?shù)據(jù)提交到Osteoarthritis Initiative的研究人員的觀點或看法。)

上圖:圖1.這位患者在未來3年不會患上骨關節(jié)炎。

上圖:圖2.這位患者將在未來3年患上骨關節(jié)炎。
醫(yī)療器械所用AI算法的透明度與臨床相關。AI模型有著非常復雜和非線性的結(jié)構(gòu),常常就像“黑盒”一樣,也就是很難甚至無法了解它們是如何做出決策的。比如在這個案例中,專家無法確定輸入模型數(shù)據(jù)的哪個部分(例如診斷圖像)促使AI做出了判斷(例如圖片中檢測到的癌癥組織)。
重構(gòu)MRT和CT圖像的AI方法也被證明在部分情況下不夠穩(wěn)定。輸入圖像上即便是小小的改變也能導致完全不同的結(jié)果。一個原因在于算法的開發(fā)有時基于準確度,而沒有考慮到穩(wěn)定性。
如果AI預測不能做到透明且可理解,其醫(yī)療決策的正確性就會受到質(zhì)疑。目前AI在臨床前應用中的一些錯誤進一步加劇了這些懷疑。為確?;颊甙踩瑢<冶仨毮軌蚪忉孉I做出的決策。這是贏得并維持信任的唯一方式。
下圖說明了黑盒和白盒AI之間的區(qū)別。

上圖:圖3.黑盒AI

上圖:圖4.白盒AI
下圖顯示了使用低質(zhì)量數(shù)據(jù)訓練AI的結(jié)果。示例包括:
偏差數(shù)據(jù)(確定結(jié)果類型時出現(xiàn)偏差)
過度擬合數(shù)據(jù)(見圖6)包含和過度重視相關性很小或者無關的特性。
低度擬合數(shù)據(jù):模型不能準確代表訓練示例。

上圖:圖5.使用低質(zhì)量數(shù)據(jù)進行訓練的結(jié)果

上圖:圖6.過度擬合(紅線)數(shù)據(jù)(點)。包含和過度重視相關性很小或者無關的特性。

上圖:圖7.低度擬合(紅線)數(shù)據(jù)(點)。模型不能準確代表訓練示例。
德國公告機構(gòu)的利益集團((IG-NB) )發(fā)布的免費檢查表為醫(yī)療器械列出了150項開發(fā)和上市后監(jiān)管要求(見下方信息框)。在政府發(fā)布AI醫(yī)療器械安全標準之前,可使用該指南盡量減小醫(yī)療AI生命周期中的風險。這有助于以高度規(guī)范化的方式為市場引入新技術。

來源: Medtec醫(yī)療器械設計與制造