您當(dāng)前的位置:檢測資訊 > 科研開發(fā)
嘉峪檢測網(wǎng) 2025-02-21 08:10
前言
在眼科領(lǐng)域,人工智能的發(fā)展和應(yīng)用正逐步改變著醫(yī)療實(shí)踐的面貌。然而,正如本文所強(qiáng)調(diào)的,從AI模型的開發(fā)到真實(shí)世界應(yīng)用,隨機(jī)對照試驗(yàn)(RCTs)的重要性不容忽視。這不僅是對技術(shù)本身的考驗(yàn),更是對患者安全和醫(yī)療質(zhì)量的保障。AI技術(shù)的引入不僅需要技術(shù)上的突破,更需要臨床實(shí)踐中的不斷驗(yàn)證和優(yōu)化。同時(shí),我們也呼吁行業(yè)內(nèi)的跨學(xué)科合作,共同推動(dòng)AI技術(shù)與臨床實(shí)踐的深度融合,為患者帶來更高質(zhì)量的醫(yī)療服務(wù)。在這個(gè)過程中,倫理和隱私問題同樣需要得到充分關(guān)注,確保技術(shù)的發(fā)展真正惠及每一位患者。
2025年2月15日,來自香港中文大學(xué)眼科與視覺科學(xué)系冉安然教授團(tuán)隊(duì)在自然子刊「EYE」發(fā)表題為「Moving artificial intelligence development to deployment in ophthalmology: randomised controlled trials are warranted」即「將人工智能開發(fā)應(yīng)用于眼科:有必要進(jìn)行隨機(jī)對照試驗(yàn)」的評論。
本文強(qiáng)調(diào)了在眼科領(lǐng)域中,人工智能(AI)模型從開發(fā)到實(shí)際部署過程中隨機(jī)對照試驗(yàn)(RCTs)的重要性。盡管AI在眼科診斷和治療中展現(xiàn)出潛力,但大多數(shù)AI模型僅在受控環(huán)境中測試,缺乏真實(shí)世界臨床實(shí)踐的驗(yàn)證。高質(zhì)量的RCTs對于驗(yàn)證AI模型在真實(shí)世界中的有效性和安全性至關(guān)重要。未來研究應(yīng)關(guān)注AI模型在不同臨床環(huán)境和患者群體中的表現(xiàn),并加強(qiáng)跨學(xué)科合作,促進(jìn)AI技術(shù)與臨床實(shí)踐的深度融合,以提升眼科醫(yī)療服務(wù)的質(zhì)量。
1.將人工智能開發(fā)應(yīng)用于眼科:有必要進(jìn)行隨機(jī)對照試驗(yàn)
人工智能(AI)在眼科領(lǐng)域顯示出巨大的潛力,這從該領(lǐng)域相關(guān)出版物數(shù)量的激增中可見一斑。然而,大多數(shù)AI模型僅在實(shí)驗(yàn)室環(huán)境中開發(fā)和測試,使用回顧性數(shù)據(jù)集,與真實(shí)世界臨床實(shí)踐相隔離。實(shí)驗(yàn)室與真實(shí)世界之間存在顯著差異,包括疾病流行率、共病情況、人群人口統(tǒng)計(jì)學(xué)特征、圖像質(zhì)量和成像設(shè)備等,這可能導(dǎo)致AI模型出現(xiàn)偏差、性能差異和安全性問題。即使是一些獲得美國 FDA 批準(zhǔn)的人工智能醫(yī)療設(shè)備也沒有在真實(shí)世界臨床實(shí)踐中進(jìn)行嚴(yán)格評估,這可能會(huì)引發(fā)監(jiān)管機(jī)構(gòu)、臨床醫(yī)生和患者的擔(dān)憂。
在眼科領(lǐng)域,根據(jù)現(xiàn)有證據(jù),AI模型的真實(shí)世界應(yīng)用可能不可靠,表現(xiàn)不佳。例如,Lee 等人對包括美國 FDA 批準(zhǔn)算法在內(nèi)的 7 種自動(dòng)化AI糖尿病視網(wǎng)膜病變(DR)篩查系統(tǒng)進(jìn)行了一項(xiàng)“頭對頭”(非安慰劑對照研究)的實(shí)際驗(yàn)證研究。研究發(fā)現(xiàn),其中一個(gè)系統(tǒng)的增殖性DR檢測靈敏度僅為74.42%,漏掉了近1/4的晚期病例,這引發(fā)了對AI安全性的嚴(yán)重?fù)?dān)憂。另一方面,IDx-DR(FDA批準(zhǔn)的首個(gè)用于DR檢測的AI),在實(shí)際應(yīng)用中表現(xiàn)出的假陽性率高于回顧性研究中的表現(xiàn)。這些差異突顯了誤診和不必要干預(yù)的風(fēng)險(xiǎn),可能會(huì)危及患者的診治。此外,觀察性研究報(bào)告的AI模型在真實(shí)世界應(yīng)用中的療效結(jié)果相互矛盾,存在偏差和質(zhì)量參差不齊的問題,限制了證據(jù)的一致性??紤]到AI在眼科領(lǐng)域中的潛在風(fēng)險(xiǎn),必須通過嚴(yán)格的研究來驗(yàn)證其在實(shí)際臨床實(shí)踐中的表現(xiàn),以確?;颊甙踩?。
2.需要隨機(jī)對照試驗(yàn)來推動(dòng)AI從開發(fā)轉(zhuǎn)向眼科領(lǐng)域的臨床應(yīng)用
許多指南和共識(shí)聲明都強(qiáng)調(diào)需要高質(zhì)量的證據(jù)來驗(yàn)證臨床環(huán)境中的AI模型,尤其是當(dāng)這些模型(使用環(huán)境)和開發(fā)環(huán)境存在偏差時(shí)。因此,嚴(yán)謹(jǐn)設(shè)計(jì)的隨機(jī)對照試驗(yàn)(RCT)是必要的,以確定AI干預(yù)與臨床結(jié)果之間是否存在因果關(guān)系,并通過隨機(jī)化、盲法和干預(yù)標(biāo)準(zhǔn)化等多種機(jī)制將偏差最小化。高質(zhì)量的RCT對于彌合AI開發(fā)與眼科臨床應(yīng)用之間的差距至關(guān)重要。目前,評估AI模型的RCT仍然缺乏,尤其是在眼科領(lǐng)域。隨著AI技術(shù)的進(jìn)步,需要高質(zhì)量且具有代表性的RCT來證明特定代際的AI技術(shù)(例如從傳統(tǒng)神經(jīng)網(wǎng)絡(luò)到大語言模型和基礎(chǔ)模型)在真實(shí)世界臨床實(shí)踐中的可行性。
3.在眼科領(lǐng)域開展高質(zhì)量隨機(jī)對照試驗(yàn)的見解與建議
在眼科領(lǐng)域進(jìn)行驗(yàn)證AI的高質(zhì)量隨機(jī)對照試驗(yàn)(RCTs),遵循 CONSORT-AI 和 SPIRIT-AI [19] 等指南將有助于提高透明度并降低偏倚風(fēng)險(xiǎn)。具體而言,在研究設(shè)計(jì)中需要考慮以下方面(下圖)。

開展高質(zhì)量的人工智能(AI)隨機(jī)對照試驗(yàn)(RCTs)的關(guān)鍵之一是對試驗(yàn)進(jìn)行精心設(shè)計(jì)和倫理考量。首先,將人工智能模型整合到臨床常規(guī)中并確定臨床相關(guān)終點(diǎn)至關(guān)重要,例如管理計(jì)劃的改變、減少眼科診所不必要的轉(zhuǎn)診、改善視力結(jié)果、避免失明或降低死亡率。僅使用模型性能等替代終點(diǎn)是不夠的,因?yàn)樗鼈儾灰欢苻D(zhuǎn)化為患者的實(shí)際獲益。
其次,應(yīng)識(shí)別分層因素,如年齡和視力,以控制研究組之間的混雜變量,因?yàn)槔夏耆嘶蛞暳Σ畹幕颊吒谆佳鄄 ?/span>
第三,建議進(jìn)行多中心試驗(yàn),以解決患者之間的異質(zhì)性問題,因?yàn)锳I模型可能由于人群特征、疾病流行率或醫(yī)療實(shí)踐的差異而在不同中心表現(xiàn)不一致。多中心試驗(yàn)可以通過識(shí)別不同臨床環(huán)境、設(shè)備和人群中的潛在AI性能問題,提供A級證據(jù),確保AI系統(tǒng)的泛化能力(generalizability,指的是模型在未見過的數(shù)據(jù)上表現(xiàn)良好的能力)和穩(wěn)健性。
最后,倫理考量至關(guān)重要,例如把AI作為篩查工具或輔助工具時(shí),需要徹底的知情同意流程,明確解釋AI的角色、潛在風(fēng)險(xiǎn)和益處。此外,盡管醫(yī)生會(huì)根據(jù)患者的年齡、視力、既往病史和AI輸出等信息綜合做出臨床決策,但應(yīng)告知參與者,由于在檢測眼病時(shí)的診斷錯(cuò)誤,可能會(huì)出現(xiàn)不必要的治療或錯(cuò)過治療的情況。
更重要的是,為了成功開展人工智能(AI)的隨機(jī)對照試驗(yàn)(RCTs),需要與不同利益相關(guān)者(例如AI工程師)進(jìn)行跨學(xué)科合作。這種合作使試驗(yàn)設(shè)計(jì)能夠全面考慮技術(shù)、臨床和倫理方面的問題。眼科醫(yī)生可以提供關(guān)于臨床工作流程和將AI整合到實(shí)踐中的實(shí)際考慮的關(guān)鍵見解,而AI工程師可以提供技術(shù)支持,例如在試驗(yàn)期間修復(fù)AI平臺(tái)故障和算法錯(cuò)誤。
4.成功的臨床試驗(yàn)并非終點(diǎn)
將AI整合到真實(shí)世界臨床實(shí)踐中代表著一場具有巨大潛力的范式轉(zhuǎn)變。高質(zhì)量的隨機(jī)對照試驗(yàn)RCT在這一演變過程中起著關(guān)鍵作用,為將有前景的技術(shù)轉(zhuǎn)化為標(biāo)準(zhǔn)臨床常規(guī)提供了必要的證據(jù)。然而,RCT只能在特定時(shí)間點(diǎn)對AI系統(tǒng)進(jìn)行基本驗(yàn)證,無法適應(yīng)AI系統(tǒng)的持續(xù)更新。因此隨著醫(yī)療環(huán)境和患者群體的演變,持續(xù)的上市后監(jiān)督以及利益相關(guān)者之間的接受度評估對于長期監(jiān)測AI模型的實(shí)施至關(guān)重要。適應(yīng)性監(jiān)管和準(zhǔn)入框架,例如實(shí)施研究綜合框架(CFIR),可能是適應(yīng)人AI系統(tǒng)迭代性質(zhì)所必需的,因?yàn)槿斯ぶ悄芟到y(tǒng)通常需要根據(jù)新數(shù)據(jù)和臨床見解進(jìn)行更新和改進(jìn)。
5.結(jié)論
在將AI模型應(yīng)用于醫(yī)療保健之前,需要進(jìn)行嚴(yán)格的評估。通過精心設(shè)計(jì)的RCT提供高質(zhì)量的證據(jù),最大限度地減少偏差并增強(qiáng)真實(shí)世界臨床意義,我們將更有信心將AI從開發(fā)階段推進(jìn)到眼科領(lǐng)域的應(yīng)用階段。RCT不僅是一種方法學(xué)上的必要性,而且是實(shí)現(xiàn)AI在轉(zhuǎn)變眼科診療和改善全球患者生活質(zhì)量方面的全部潛力的基礎(chǔ)性步驟。
延伸
除了需要在嚴(yán)肅環(huán)境中理性審視 AI 的應(yīng)用。借助本文,筆者也想表達(dá)一下對目前互聯(lián)網(wǎng)上大語言模型在人們各項(xiàng)生活工作中普遍受到過度追捧這一現(xiàn)象的看法。
目前在網(wǎng)絡(luò)上,類似 “某大語言模型和醫(yī)生的診斷治療建議幾乎一致” 等內(nèi)容大多是部分成功案例,更容易被媒體廣泛傳播,存在幸存者偏差,容易讓人忽略失敗的情況。
不僅如此,媒體大量輸出“某大語言模型認(rèn)為...“、“必讀!某大語言模型給某某行業(yè)人士的建議...”、“某大語言模型的某某行業(yè)觀:....”等等,似乎大語言模型的觀點(diǎn)已經(jīng)被奉為圣典。在這種狂熱中,理性的聲音往往被淹沒,過度夸大的背后有媒體小編完成KPI的熱點(diǎn)驅(qū)動(dòng),也有一些賣課者故意刺激人群焦慮的推波助瀾。
最需要警惕的是,“AI 幻覺”是大語言模型與生俱來的問題,大語言模型憑借強(qiáng)大的能力產(chǎn)出的內(nèi)容雖然令人驚艷,硬幣的另一面也帶來了不可避免的副作用,看似清晰合理實(shí)則充斥了似是而非、張冠李戴甚至無中生有的內(nèi)容,而恰恰因其看似嚴(yán)謹(jǐn)合理的(我把它稱為well-structure)邏輯,甚至部分專業(yè)人士也容易被“唬弄”。然而,很多生活工作場景中,我們無法接受“差點(diǎn)兒正確”。
此外,這些大語言模型及其衍生應(yīng)用無法為輸出的醫(yī)學(xué)、法律等專業(yè)內(nèi)容負(fù)責(zé),AI 在現(xiàn)行法律上沒有主體資格?;貧w到醫(yī)療行業(yè)來看,醫(yī)療與生命健康息息相關(guān),哪怕是沒有明確追責(zé)機(jī)制的科普內(nèi)容輸出,也不容絲毫懈怠。在使用大語言模型時(shí),必須嚴(yán)謹(jǐn)對待其生成的內(nèi)容,進(jìn)行嚴(yán)格的復(fù)核校驗(yàn)。一旦未經(jīng)嚴(yán)格審核、存在錯(cuò)誤的內(nèi)容流入語料庫,后續(xù) AI 在學(xué)習(xí)和生成內(nèi)容時(shí),會(huì)進(jìn)一步傳播這些錯(cuò)誤信息,使得 AI 輸出的可信度持續(xù)降低,對醫(yī)療科普和專業(yè)信息傳播造成更嚴(yán)重的負(fù)面影響。
在信息爆炸與算法繭房交織的數(shù)字時(shí)代,AI技術(shù)正以"智能濾鏡"形態(tài)重塑人類認(rèn)知體系。面對 AI 在醫(yī)療和生活的廣泛應(yīng)用,我們更需要在批判性思維下進(jìn)行獨(dú)立思考維,在這個(gè)算法即權(quán)力的時(shí)代,真正的智能革命不在于創(chuàng)造更強(qiáng)大的AI,而在于培養(yǎng)能駕馭AI的人類心智。AI給出的每個(gè)答案,應(yīng)是我們追問的新起點(diǎn)而非終點(diǎn)。
本文文獻(xiàn):
Zhang, S., Nguyen, T.X., Liu, X. et al. Moving artificial intelligence development to deployment in ophthalmology: randomised controlled trials are warranted. Eye (2025). https://doi.org/10.1038/s41433-025-03708-2

來源:Aggie 青白視角