摘要:
目的:人工智能醫(yī)療器械的應(yīng)用越來(lái)越廣泛, 但目前并沒(méi)有對(duì)其性能的評(píng)價(jià)標(biāo)準(zhǔn)。希望通過(guò)本文研究為人工智能醫(yī)療器械的客觀評(píng)估提供幫助。
方法:從不同的應(yīng)用角度對(duì)人工智能醫(yī)療器械評(píng)估參數(shù)進(jìn)行了梳理, 比較了各個(gè)參數(shù)的特點(diǎn)和使用場(chǎng)景。
結(jié)果與結(jié)論:不同的評(píng)估參數(shù)所適用的場(chǎng)景不同, 評(píng)估結(jié)果也存在差異, 在進(jìn)行人工智能產(chǎn)品評(píng)價(jià)時(shí)應(yīng)根據(jù)產(chǎn)品特性合理選擇。
人工智能醫(yī)療器械作為一種新興的醫(yī)療器械,在輔助診斷、輔助篩查等諸多領(lǐng)域?qū)崿F(xiàn)了突破。基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)可以幫助醫(yī)生識(shí)別CT影像、病理切片、皮膚損傷、視網(wǎng)膜圖像、心電圖、內(nèi)窺鏡檢查、面部和生命體征[1-3]。人工智能產(chǎn)品一般是對(duì)樣本數(shù)據(jù)進(jìn)行分類或?qū)颖緮?shù)據(jù)的異常特征進(jìn)行標(biāo)記或提取。對(duì)于它們的評(píng)估多為算法的評(píng)估結(jié)果與參考標(biāo)準(zhǔn)(臨床“金標(biāo)準(zhǔn)”或有經(jīng)驗(yàn)臨床醫(yī)生的診斷結(jié)果)進(jìn)行比較[4],使用召回率、特異性、準(zhǔn)確度等參數(shù)的數(shù)值大小或曲線關(guān)系來(lái)表示產(chǎn)品的質(zhì)量水平。對(duì)于人工智能產(chǎn)品不同的功能,如分類、分割、檢出;或者不同的應(yīng)用場(chǎng)景,如體檢應(yīng)用、門(mén)診應(yīng)用;或者不同的評(píng)價(jià)目的如產(chǎn)品研發(fā)過(guò)程的評(píng)價(jià)、迭代后性能的評(píng)價(jià)、不同產(chǎn)品的比較評(píng)價(jià),都應(yīng)該依據(jù)自身特點(diǎn)合理地選擇評(píng)價(jià)參數(shù),因?yàn)椴煌膮?shù)所體現(xiàn)產(chǎn)品的能力是不一樣的。
目前,我國(guó)雖組建了人工智能醫(yī)療器械歸口單位,相應(yīng)的標(biāo)準(zhǔn)也在不斷的規(guī)劃中,但現(xiàn)階段國(guó)內(nèi)外尚未建立人工智能醫(yī)療器械的評(píng)價(jià)標(biāo)準(zhǔn)與方法規(guī)范。本文對(duì)工智能產(chǎn)品的評(píng)估參數(shù)進(jìn)行了分析,簡(jiǎn)述了各個(gè)參數(shù)的特點(diǎn),這將有助于進(jìn)一步明晰影像類人工智能產(chǎn)品的評(píng)價(jià)工作,為人工智能產(chǎn)品的研發(fā)和質(zhì)控提供指導(dǎo)。
1 分類評(píng)估參數(shù)
人工智能(Artificial Intelligence,AI)醫(yī)療器械的輔助篩查、輔助識(shí)別或輔助診斷等功能多是給出患者數(shù)據(jù)的狀態(tài)分類,如二分類的陰性(非患?。?、陽(yáng)性(患?。蚨喾诸惾缣悄虿∫暰W(wǎng)膜病變篩查的0期~Ⅵ期[5]。對(duì)于分類問(wèn)題可采用混淆矩陣的方法[6],見(jiàn)表 1,進(jìn)而計(jì)算靈敏度、特異性、準(zhǔn)確率等參數(shù)。
表 1 多分類混淆矩陣(n為分類種類)
靈敏度:
(1)
特異性:
(2)
準(zhǔn)確率:
(3)
Ni, j(i=1~n,j=1~n)為真實(shí)分類為i類,被AI產(chǎn)品判為j類的個(gè)數(shù);Psen, i為第i類為陽(yáng)性,其他類為陰性的靈敏度;Pspe, i為第i類為陽(yáng)性,其他類為陰性的特異性。
靈敏度指參考標(biāo)準(zhǔn)中實(shí)際的陽(yáng)性樣本被正確判斷的比率,見(jiàn)式(1),用來(lái)評(píng)估人工智能產(chǎn)品對(duì)目標(biāo)疾病的識(shí)別能力。相反,特異性是指參考標(biāo)準(zhǔn)中實(shí)際的陰性樣本被正確判斷的比率,見(jiàn)式(2),用來(lái)評(píng)估人工智能產(chǎn)品對(duì)非目標(biāo)疾病的識(shí)別能力。而準(zhǔn)確度是指所有樣本被正確判斷的比率,見(jiàn)式(3)。這些參數(shù)都是0~1的數(shù)值,越接近1表示算法的性能越好。
單一參數(shù)很高并不能說(shuō)明產(chǎn)品的優(yōu)劣。比如準(zhǔn)確度,其數(shù)值與發(fā)病率有一定相關(guān)性,當(dāng)某一類數(shù)據(jù)的樣本量遠(yuǎn)大于另一類時(shí),即使另一類全部判斷錯(cuò)誤也不會(huì)對(duì)準(zhǔn)確度產(chǎn)生太大影響,所以即使分?jǐn)?shù)很高,也無(wú)法對(duì)于特定類別的識(shí)別能力進(jìn)行判斷。所以大部分情況下可用多個(gè)參數(shù)同時(shí)用于產(chǎn)品性能的評(píng)估,比如用靈敏度和特異性兩個(gè)參數(shù)來(lái)評(píng)價(jià)產(chǎn)品的性能。一般成熟的產(chǎn)品算法的評(píng)估閾值是一定的,也就是靈敏度和特異性是唯一的。特定閾值下的參數(shù)只能體現(xiàn)產(chǎn)品應(yīng)用性能的優(yōu)劣,并不能評(píng)價(jià)產(chǎn)品算法的優(yōu)劣,比如一個(gè)優(yōu)質(zhì)算法在一個(gè)存在偏倚的數(shù)據(jù)集上進(jìn)行訓(xùn)練,產(chǎn)品出廠時(shí)并沒(méi)有選擇最優(yōu)的閾值,這導(dǎo)致召回率等參數(shù)沒(méi)達(dá)到預(yù)期。所以為了進(jìn)一步評(píng)價(jià)算法的好壞通常采用ROC、Precision-Recall(P-R)曲線等來(lái)對(duì)產(chǎn)品進(jìn)行評(píng)價(jià)[7]。在醫(yī)用范疇,多數(shù)情況下正負(fù)樣本比例差距較大(與發(fā)病率相關(guān),Precision-Recall曲線在正負(fù)樣本不均衡的情況下會(huì)出現(xiàn)較大波動(dòng)),且ROC曲線包含混淆矩陣的所有信息(Precision-Recall曲線缺少混淆矩陣的真陰性個(gè)數(shù)信息),因此ROC曲線更常見(jiàn)。它通過(guò)調(diào)節(jié)算法的閾值來(lái)計(jì)算不同閾值下的靈敏度和特異性,以1減特異性為橫坐標(biāo),靈敏度為縱坐標(biāo),繪制ROC曲線,ROC曲線不僅能體現(xiàn)算法在不同閾值下的泛化能力,同時(shí),還通過(guò)計(jì)算曲線下面積(AUC)對(duì)不同的AI產(chǎn)品用一個(gè)參數(shù)進(jìn)行比較。
2 分割評(píng)估參數(shù)
人工智能輔助檢測(cè)功能多應(yīng)用于影像識(shí)別類產(chǎn)品,其作用在于準(zhǔn)確地識(shí)別圖像中的病灶位置并進(jìn)行邊界分割,其分割性能多采用分割結(jié)果與參考標(biāo)準(zhǔn)比較,比如在FDA發(fā)布的計(jì)算機(jī)輔助探測(cè)(Computer-assisted Detection Devices)的510(k)提交指導(dǎo)原則[8]中提到了用分割區(qū)域的位置關(guān)系進(jìn)行評(píng)價(jià)計(jì)算。目前比較算法中被廣泛應(yīng)用的評(píng)價(jià)方式有兩種:Jaccard系數(shù)[也稱之為交并比(IoU)]和Dice系數(shù)[9-10]。
交并比是指參考標(biāo)準(zhǔn)和人工智能算法區(qū)域交集與并集(見(jiàn)圖 1)的比率,見(jiàn)式(4):
A.參考標(biāo)準(zhǔn)的分割面積;B.人工智能算法的分割面積;C.參考標(biāo)準(zhǔn)與人工智能算法分割面積的重疊部分。
圖 1 尺寸分割評(píng)價(jià)參數(shù)舉例
(4)
Dice系數(shù)是指參考標(biāo)準(zhǔn)和人工智能算法區(qū)域交集與二者區(qū)域平均值的比率,見(jiàn)式(5):
(5)
從公式(4)和(5)可以看出,雖然二者都是在0~1變化的數(shù)值,但相同情況下IoU數(shù)值要低于Dice系數(shù),見(jiàn)式(6):
(6)
IoU比Dice系數(shù)提供了更寬的數(shù)值評(píng)估范圍,尤其是在分割結(jié)果較差的情況下,IoU能更好地評(píng)估分割圖像中的微小變化,對(duì)于不同產(chǎn)品的評(píng)價(jià)提供了更好的區(qū)分度;如果一個(gè)AI產(chǎn)品的分割性能進(jìn)行了提升,隨著重疊面積的增加,Dice系數(shù)呈線性變化,而IoU呈非線性變化,這對(duì)于同一產(chǎn)品分割性能的評(píng)價(jià),尤其在算法整改后的評(píng)價(jià)上,Dice更為直觀。
對(duì)于分割性能,在檢出類AI產(chǎn)品如肺結(jié)節(jié)識(shí)別上,有可能會(huì)通過(guò)區(qū)域分割指標(biāo)來(lái)判斷真陽(yáng)性(TP)和假陽(yáng)性(FP),進(jìn)而計(jì)算靈敏度、特異性等參數(shù),就是要確定分割性能參數(shù)閾值的大小,這涉及了標(biāo)記匹配的內(nèi)容[11]。比如交并比不低于某一小于1的數(shù),這個(gè)數(shù)值直接決定了是否被命中,進(jìn)而影響靈敏度、精確度等參數(shù)。我們能判斷越接近于1,算法是越優(yōu)秀的,但是我們無(wú)法確切定義哪個(gè)百分比對(duì)于臨床醫(yī)生的使用是足夠了,也就是檢出來(lái)了,這部分還有待進(jìn)一步研究。
此外,還可以把算法分割結(jié)果與參考標(biāo)準(zhǔn)當(dāng)成兩個(gè)像素集,二者重疊像素點(diǎn)記為T(mén)P,參考標(biāo)準(zhǔn)去掉TP部分為FN,算法分割結(jié)果去掉TP部分為FP,這樣可以用召回率[見(jiàn)式(7)]和精確度[見(jiàn)式8)]兩個(gè)參數(shù)對(duì)分割結(jié)果進(jìn)行評(píng)價(jià),見(jiàn)圖 2。這類似于對(duì)于病灶檢出的評(píng)價(jià)方式。
A.參考標(biāo)準(zhǔn)的分割區(qū)域;B.人工智能算法的分割區(qū)域。
圖 2 像素點(diǎn)集合進(jìn)行分割參數(shù)評(píng)價(jià)
召回率:
(7)精確度:
(8)當(dāng)召回率為1時(shí),參考標(biāo)準(zhǔn)被完全包裹在算法分割區(qū)域范圍內(nèi),如圖 3所示;當(dāng)精確度為1時(shí),算法分割區(qū)域被完全包裹在參考標(biāo)準(zhǔn)范圍內(nèi),如圖 4所示。通過(guò)兩個(gè)參數(shù)不僅可以分析分割結(jié)果的相關(guān)度,還可以對(duì)分割的位置及形狀進(jìn)行判斷,IoU和Dice雖然能分析分割結(jié)果的相關(guān)度,但通過(guò)參數(shù)不能判斷分割面積的大小和相互包含關(guān)系。
參考標(biāo)準(zhǔn)被完全包裹在算法分割區(qū)域范圍內(nèi),召回率為1。
圖 3 位置及形狀示例一
算法分割區(qū)域被完全包裹在參考標(biāo)準(zhǔn)范圍內(nèi),精確度為1。
圖 4 位置及形狀示例二
3 檢出算法的曲線評(píng)估參數(shù)
檢出類算法一般會(huì)在一幅圖像上診斷出多個(gè)異常,這種病灶檢出的方式無(wú)法采用ROC曲線進(jìn)行評(píng)價(jià),因?yàn)榧訇?yáng)性的個(gè)數(shù)是沒(méi)有限制的。這種情況一般采用FROC曲線來(lái)進(jìn)行評(píng)價(jià)。其繪制方法是在不同的閾值下,計(jì)算算法的召回率和平均假陽(yáng)個(gè)數(shù)(平均每個(gè)病人所含有的假陽(yáng)個(gè)數(shù))。以召回率為縱坐標(biāo),平均假陽(yáng)個(gè)數(shù)為橫坐標(biāo),繪制曲線。對(duì)于曲線評(píng)價(jià),我們不僅希望從曲線的趨勢(shì)圖或曲線上特定點(diǎn)來(lái)評(píng)價(jià)算法的好壞,我們更希望通過(guò)曲線提取出一個(gè)綜合參數(shù),用這個(gè)參數(shù)對(duì)算法進(jìn)行評(píng)價(jià),比如ROC曲線的AUC。對(duì)于FROC,同樣可以計(jì)算曲線下的面積,但這種方式可能需要調(diào)節(jié)多個(gè)閾值,計(jì)算量較大。且假陽(yáng)結(jié)節(jié)的數(shù)量會(huì)因?yàn)楫a(chǎn)品的性能不同而不同,這導(dǎo)致FROC曲線橫坐標(biāo)(平均假陽(yáng)個(gè)數(shù))終點(diǎn)不一致,這樣計(jì)算的面積很難進(jìn)行橫向比較。為解決這一問(wèn)題,可以采用給橫坐標(biāo)一個(gè)限制,如橫坐標(biāo)都采用平均假陽(yáng)個(gè)數(shù)8個(gè),這樣面積的理想值就進(jìn)行了統(tǒng)一,但損失了一部分閾值下的數(shù)據(jù)考量。另一個(gè)問(wèn)題,對(duì)于較好或較差的算法,平均假陽(yáng)個(gè)數(shù)8個(gè)可能會(huì)太多或者太少,給評(píng)價(jià)帶來(lái)一定的局限。我們還可采用曲線上召回率的平均值,這種對(duì)于線性度較好的曲線是個(gè)不錯(cuò)的選擇,但對(duì)于線性度較差的曲線,可能會(huì)存在偏差。
Precision-Recall曲線是以召回率為橫坐標(biāo),精確度為縱坐標(biāo)繪制的曲線。曲線構(gòu)造和ROC曲線類似[10],曲線下面積理想值為1。該曲線的評(píng)價(jià)方式很好地繼承了ROC曲線的優(yōu)點(diǎn),能夠?qū)崿F(xiàn)不同算法性能的評(píng)估和統(tǒng)計(jì)比較。
FROC與P-R曲線都包含了TP、FP、FN的信息,兩種曲線有著各自的特點(diǎn),見(jiàn)圖 5、圖 6。在FROC曲線上能更為直觀地找到曲線的拐點(diǎn),這對(duì)于產(chǎn)品研發(fā)階段合理的閾值調(diào)節(jié)具有很大的幫助。但曲線在閾值無(wú)限小的情況下,召回率趨于定值,而平均假陽(yáng)個(gè)數(shù)是在不斷增加的,無(wú)法通過(guò)計(jì)算FROC曲線下的面積對(duì)AI算法進(jìn)行評(píng)估,這一點(diǎn)上P-R曲線更具優(yōu)勢(shì)。P-R曲線理想狀態(tài)下曲線下面積為1,隨著閾值的減小精確度趨于0,可以通過(guò)曲線下面積對(duì)不同算法進(jìn)行比較[12]。此外,P-R曲線的橫坐標(biāo)和縱坐標(biāo)都和TP的數(shù)量密切相關(guān),如果數(shù)據(jù)集陽(yáng)性樣本數(shù)量變化時(shí),曲線的變化有可能會(huì)大于FROC曲線。
圖 5 FROC曲線
圖 6 P-R曲線
4 總結(jié)
統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn)是人工智能算法質(zhì)量評(píng)估重要的研究?jī)?nèi)容之一,這有助于實(shí)現(xiàn)AI算法的橫向比較,使評(píng)價(jià)更為客觀。本文討論了不同評(píng)估參數(shù)的定義及適用場(chǎng)景,簡(jiǎn)述了它們各自的優(yōu)缺點(diǎn),但目前還沒(méi)有形成統(tǒng)一的標(biāo)準(zhǔn)。相信隨著人工智能在醫(yī)療領(lǐng)域的普及,以及臨床實(shí)際應(yīng)用經(jīng)驗(yàn)與應(yīng)用模式(如人+AI工作、AI單獨(dú)工作)的不斷進(jìn)步,評(píng)價(jià)標(biāo)準(zhǔn)會(huì)逐步統(tǒng)一和提高。但現(xiàn)階段,任何對(duì)于AI算法的評(píng)估,不僅要給出數(shù)據(jù)集的情況描述,還應(yīng)給出全面的質(zhì)量評(píng)估算法的描述,不能直接給出一個(gè)最終結(jié)果。
參考文獻(xiàn)
[1] Eric J Topol. High-performance Medicine:The Convergence of Human and Artificial Intelligence[J]. Nature Medicine, 2009, 25: 44-56.
[2] Setio A AA, Traverso A, De Bel T, et al. Validation, Comparison, and Combination of Algorithms for Automatic Detection of Pulmonary Nodules in Computed Tomography Images:The LUNA16 Challenge[J]. Medical Image Analysis, 2017, 42: 1-13.
[3] Gulshan V, Peng L, Coram M, et al. Development and Validation of a Deep Learning Algorithm for Detection of Diabetic Retinopathy in Retinal Fundus Photographs[J]. JAMA, 2016, 316(22): 2402-2410.
[4] Petrick N, Sahiner B, Armato SG, et al. Evaluation of Computer-aided Detection and Diagnosis Systems[J]. MedPhys, 2013, 40(8): 87001.
[5] 中華醫(yī)學(xué)會(huì)眼科學(xué)會(huì)眼底病學(xué)組. 我國(guó)糖尿病視網(wǎng)膜病變臨床診療指南(2014年)[J]. 中華眼科雜志, 2014, 50(11): 851-865. DOI:10.3760/cma.j.issn.0412-4081.2014.11.014
[6] 孟祥峰, 王浩, 王權(quán), 等. 影像類人工智能醫(yī)療器械評(píng)價(jià)方法研究[J]. 中國(guó)醫(yī)療設(shè)備, 2018, 33(12): 23-26, 30.
[7] Jesse Davis, Mark Goadrich. The Relationship Between Precision-recall and ROC Curves[C].Appearing in Proceedings of the 23rd International Conference on Machine Learning: Pittsburgh, PA, 2006.
[8] FDA. Computer-Assisted Detection Devices Applied to Radiology Images and Radiology Device Data-Premarket Notification[510(k)] Submissions[S]. Washington DC: Food and Drug Administration, 2009.
[9] Chang H H, Zhuang A H, Valentino D J, et al. Performance Measure Characterization for Evaluating Neuroimage Segmentation Algorithms[J]. NeuroImage, 2009, 47(1): 122-135.
[10] Cárdenes R, de LuisGarcía R, Bachcuadra M. A Multidimensional Segmentation Evaluation for Medical Image Data[J]. Comput Methods Programs Biomed, 2009, 96(2): 108-124.
[11] Kallergi M, Carney G M, Gaviria J. Evaluating the Performance of Detection Algorithms in Digital Mammography[J]. Medical Physics, 1999, 26(2): 267.
[12] Sahiner B, Chen W, Pezeshk A, et al. Semi-parametric Estimation of the Area Under the Precision-recall Curve[C]. Spie Medical Imaging, 2016. https://www.researchgate.net/publication/300331546_Semi-parametric_estimation_of_the_area_under_the_precision-recall_curve
作者:孟祥峰 , 王浩 , 張超 , 任海萍
中國(guó)食品藥品檢定研究院
