在ChatGPT發(fā)布后的短短幾個月里,大型語言模型(LLM)和生成式人工智能(AI)顛覆藝術(shù)、營銷、新聞、文案、法律和軟件工程等多個領(lǐng)域的潛力已經(jīng)得到了實現(xiàn)。
近日,Nature biotechnology發(fā)表了一篇名為"How will generative AI disrupt data science in drug discovery?",探討生成式AI在生物學上的理解,發(fā)現(xiàn)和開發(fā)新的治療方法。
首先,現(xiàn)有的大語言模型(LLM)已經(jīng)能夠作為非凡的生產(chǎn)力工具,讓數(shù)據(jù)科學家和工程師,包括那些從事醫(yī)學研究和藥物發(fā)現(xiàn)的人,更有效地完成他們的工作。
軟件工程團隊正迅速采用GitHub Copilot和ChatGPT等解決方案,以更快地編寫高質(zhì)量的代碼,數(shù)據(jù)科學家也越來越多地在基于人工智能的助手的幫助下生成圖表、起草報告和演示文稿。
當前的LLM還可以幫助解決更多技術(shù)和復雜的任務(wù),例如解決跨多個數(shù)據(jù)中心的數(shù)據(jù)協(xié)調(diào)這一長期存在的問題,這在很大程度上仍然依賴于人工數(shù)據(jù)處理。特別是,一種越來越流行的協(xié)調(diào)異構(gòu)多隊列數(shù)據(jù)集的方法是使用生成式人工智能合成屬于缺失模態(tài)或領(lǐng)域的樣本,將數(shù)據(jù)協(xié)調(diào)視為風格轉(zhuǎn)移問題。
通過自動化和簡化與集成來自異構(gòu)數(shù)據(jù)源的數(shù)據(jù)相關(guān)的技術(shù)程序,LLM和生成式人工智能模型將增加協(xié)作數(shù)據(jù)網(wǎng)絡(luò)的增長,使人工智能模型能夠由前所未有的大數(shù)據(jù)集推動。
其次,由于深度生成模型不僅能夠生成文本和圖像,而且能夠生成具有所需結(jié)構(gòu)或功能的新穎小分子、核酸序列和蛋白質(zhì),因此深度生成模型越來越多地用于藥物發(fā)現(xiàn),以快速探索廣泛的候選治療方法,并針對給定的靶點或功能在計算機上對其進行優(yōu)化。
例如,Shanehsazzadeh等人使用深度生成模型生成曲妥珠單抗的變體,曲妥珠單抗是一種靶向人表皮生長因子受體2 (HER2)的單克隆抗體,用于治療乳腺癌和胃癌,并通過實驗驗證了三個與曲妥珠單抗序列相似性較低但與HER2結(jié)合較好的人工智能生成的變體。
除了設(shè)計治療方法外,基于人工智能的生物數(shù)據(jù)生成模型還被用于其他領(lǐng)域,如精確的長DNA讀取測序,以降低成本并提高DNA測序的準確性;或者在單細胞基因組學模式之間進行翻譯,以便探索組織內(nèi)組學的多模式多樣性。
第三,LLM 和生成式人工智能模型可以促進現(xiàn)有的人工智能模型,并為異構(gòu)數(shù)據(jù)和概念的無縫集成提供一個令人興奮的框架和流程。
事實上,包括LLM在內(nèi)的大多數(shù)基于深度學習的生成模型的一個顯著特征是,它們在底層以統(tǒng)一的方式表示任何類型的數(shù)據(jù),即數(shù)字列表(數(shù)學術(shù)語中的向量),通常稱為數(shù)據(jù)嵌入。例如,要回答一個問題,ChatGPT首先將其從文本轉(zhuǎn)換為向量嵌入,然后作為該嵌入的函數(shù)生成答案。
現(xiàn)代生成式人工智能系統(tǒng)(如文本數(shù)據(jù)轉(zhuǎn)換器或小分子圖神經(jīng)網(wǎng)絡(luò))學習的表征在獲取生成有意義的文本或相關(guān)分子所需的信息方面非常強大,但它們也可以用于其他目的。
特別是,通過將復雜數(shù)據(jù)表示為向量的能力,LLM和生成式人工智能模型可以作為數(shù)據(jù)先驗知識的強大來源,用于提高其他機器學習系統(tǒng)的性能。
這已經(jīng)在神經(jīng)符號表征學習領(lǐng)域發(fā)生了,其中基因或疾病的表征是通過深度表征學習從編碼大量生物學數(shù)據(jù)的知識圖中學習的,智能模型用于預測基因的特性或推斷基因與疾病的關(guān)聯(lián)。
我預計這些想法的更多應(yīng)用將會出現(xiàn),以改進人工智能模型,從患者數(shù)據(jù)中進行診斷、預后或治療反應(yīng)預測。
如何準確地實現(xiàn)這一想法,以及它的有效性在很大程度上仍然是一個開放的研究問題,但簡單的方法,如將LLM所學到的基因或疾病的表示轉(zhuǎn)移到基于組學的機器學習模型中,是一個很有前途的方向。
第四,LLM的潛力遠遠超出了上述復雜的技術(shù)任務(wù)。他們會很快成為科學家的得力助手嗎?甚至會成為真正的科學家嗎?
LLM有能力存儲從大量數(shù)據(jù)中提取的知識,包括科學文獻和內(nèi)部研究文件,他們可能能夠像科學家一樣推理并產(chǎn)生科學假設(shè)和發(fā)現(xiàn)。
但對于這樣的任務(wù)來說。盡管在許多基準測試中取得了令人滿意的結(jié)果,Galactica,一個科學大語言模型,在網(wǎng)上只存活了三天。盡管ChatGPT很快成為網(wǎng)絡(luò)上流行的工具,但它和所有語言模型一樣,因其“幻覺”而臭名昭著。
也就是說,創(chuàng)造沒有數(shù)據(jù)基礎(chǔ)的事實,也不遵循任何邏輯推理。這是科學研究中的一個重大問題,未來是否可以解決這個問題是人工智能社區(qū)的一個激烈爭論。為了解決這個問題,許多人正在努力開發(fā)所謂的增強語言模型(ALMs),將LLM的靈活性和規(guī)模與其他機制結(jié)合起來,以提高其推理和可靠性。
對于科學來說,一個特別有趣的機制是使LLM能夠?qū)崟r地從數(shù)據(jù)庫中自動查詢和檢索相關(guān)信息,這有助于它生成基于數(shù)據(jù)庫中真實信息的文本。
有趣的是,用于指導ALM的數(shù)據(jù)庫原則上可以包含大量不同的數(shù)據(jù),這為生物醫(yī)學應(yīng)用帶來了許多新機會。例如,我們可能希望用一個知識圖來增強LLM,該知識圖編碼了我們所擁有的關(guān)于基因、疾病、藥物及其相互作用的所有知識,以便LLM生成的文本以這些知識為基礎(chǔ)。
另一個有趣的方向是增強LLM在回答問題和產(chǎn)生假設(shè)時查詢多模態(tài)患者數(shù)據(jù)的能力。這不僅可以使它產(chǎn)生基于科學知識的假設(shè),還可以基于患者數(shù)據(jù),并且可以自動發(fā)現(xiàn)可能對一種新的假定治療有反應(yīng)的患者亞組。
ChatGPT代表了使用人工智能顛覆的里程碑式時刻,并有望對人類產(chǎn)生積極影響。雖然技術(shù)專家、倫理學家和監(jiān)管機構(gòu)都在瘋狂地爭論LLM等技術(shù)的持久影響,但越來越明顯的是,藥物發(fā)現(xiàn)和開發(fā)將發(fā)生轉(zhuǎn)變。
通過自動化耗時的任務(wù),生成新的分子和假設(shè),提高現(xiàn)有預測模型的性能并充當研究助理,現(xiàn)有的生成式人工智能模型已經(jīng)證明了它們的變革潛力。
在未來,更先進的LLM可能會走得更遠,并從根本上改變我們在藥物發(fā)現(xiàn)和醫(yī)學研究中使用人工智能的方式。
然而,與其他領(lǐng)域一樣,語言模型也引發(fā)了許多倫理、法律和安全問題。除了上面已經(jīng)提到的,如果模型出現(xiàn)幻覺,那么存在錯誤信息危害的風險之外,在制藥和醫(yī)療領(lǐng)域部署這些解決方案還需要我們注意其他風險,例如與私人信息泄露相關(guān)的信息危害,以及強化他們所訓練的數(shù)據(jù)中存在的偏見所帶來的歧視。
雖然目前沒有簡單的解決方案來減輕這些風險,但我們至少應(yīng)該對如何建立和驗證模型保持完全透明,并使用模板系統(tǒng)地報告這一點,以確保科學研究建立在堅實的基礎(chǔ)上,并確保醫(yī)學進步使所有人受益。
參考來源:https://www.nature.com/articles/s41587-023-01789-6