您當(dāng)前的位置:檢測資訊 > 科研開發(fā)
嘉峪檢測網(wǎng) 2025-02-14 08:51
將新療法推向市場的迫切愿望,促使大型制藥公司、生物技術(shù)公司和CRO部署AI/ML技術(shù),以加強(qiáng)和加快藥物研發(fā)進(jìn)程。這些公司面臨著“自建”還是“購買”的抉擇,要么投資內(nèi)部員工和基礎(chǔ)設(shè)施,建立內(nèi)部能力,要么與人工智能公司合作。
2025年1月8日,來自CRO公司Evotec的多位專家在Journal of Medicinal Chemistry上發(fā)表文章Real-World Applications and Experiences of AI/ML Deployment forDrug Discovery,以CRO的身份闡述了他們的觀點(diǎn)。他們認(rèn)為,將成熟的計(jì)算方法、人工智能/ML 技術(shù)和人類經(jīng)驗(yàn)相結(jié)合,可以產(chǎn)生最佳結(jié)果。
概要
深度學(xué)習(xí)的方法現(xiàn)在正在影響藥物發(fā)現(xiàn)過程的每個(gè)階段,從早期靶點(diǎn)識(shí)別到苗頭化合物發(fā)現(xiàn)和先導(dǎo)化合物優(yōu)化。
然而,由于生物系統(tǒng)固有的復(fù)雜性、高質(zhì)量訓(xùn)練數(shù)據(jù)的可用性以及化學(xué)描述符全面捕捉化學(xué)相互作用本質(zhì)的能力有限,準(zhǔn)確預(yù)測實(shí)驗(yàn)數(shù)據(jù)仍然具有挑戰(zhàn)性。此外,藥物發(fā)現(xiàn)決策中固有的偏差已被充分記錄。這些偏見會(huì)阻礙進(jìn)展,妨礙人工智能/ML技術(shù)的整合。關(guān)于AI/ML技術(shù)的有效性及其對加速藥物發(fā)現(xiàn)過程的影響的說法常常被夸大,這使得情況變得更加復(fù)雜。
根據(jù)Evotec的經(jīng)驗(yàn),將成熟的計(jì)算方法、人工智能/ML技術(shù)和人類經(jīng)驗(yàn)相結(jié)合,可以產(chǎn)生最佳結(jié)果。這里簡要總結(jié)了Evotec的專家和其他人在AI/ML應(yīng)用方面的經(jīng)驗(yàn),這些應(yīng)用目前對Evotec的工作影響最大。
AI/ML技術(shù)在藥物發(fā)現(xiàn)中的應(yīng)用
化學(xué)空間的機(jī)器表征
使用深度學(xué)習(xí)來表征化學(xué)空間是化學(xué)信息學(xué)的最新重大發(fā)展?;衔铿F(xiàn)在可以由向量表征,向量是通過在大型化合物數(shù)據(jù)庫上訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)生成的。這種表征被稱為潛在空間,因?yàn)樗鼈兪菑臄?shù)據(jù)集中以數(shù)學(xué)方式推導(dǎo)出來的,并封裝了其基本特征。給定的向量(在這個(gè)潛在空間中的位置)可以解碼為化學(xué)結(jié)構(gòu),這比分子指紋等舊表征形式有很大的好處。它能夠快速鑒定新區(qū)域中的目標(biāo)化合物。例如,向量之間的插值允許探索中間化學(xué)結(jié)構(gòu),這可能是進(jìn)入可申請專利的化學(xué)空間的一種方式。
一個(gè)開創(chuàng)性的例子是連續(xù)和數(shù)據(jù)驅(qū)動(dòng)描述符(CDDD),我們已廣泛用于生成化合物設(shè)計(jì)(請參閱下面GenerativeDesign部分中的其他方法)。CDDD是一種自動(dòng)編碼器(AE),同時(shí)在SMILES上進(jìn)行訓(xùn)練并受化學(xué)性質(zhì)(例如極性表面積和親脂性)的約束,這些化學(xué)性質(zhì)將化學(xué)和物理相似的分子推入相似的潛在子空間。這種訓(xùn)練方式傾向于遷移學(xué)習(xí)(TL)的表征,即通過添加新的、特定于項(xiàng)目的訓(xùn)練數(shù)據(jù)來改變預(yù)訓(xùn)練模型的任務(wù),從而專注于特定于項(xiàng)目的目標(biāo)和化學(xué)性質(zhì)。這種AE架構(gòu)提供的分子相似性和計(jì)算特性的聯(lián)系是相對于指紋圖譜的另一個(gè)優(yōu)勢。
我們開發(fā)了自己的基于AE的內(nèi)部Seq2Seq模型,利用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和transformer架構(gòu)。通過在內(nèi)部策劃的數(shù)據(jù)集上訓(xùn)練這些模型,我們提高了下游任務(wù)的性能和靈活性。改進(jìn)包括覆蓋分子量大于600 Da的化合物,這對于某些項(xiàng)目來說是必需的。它們還包括提取分子的潛在特征,用于定量構(gòu)效關(guān)系(QSAR)模型構(gòu)建。將QSAR和深度生成化學(xué)(DGC)結(jié)合在同一潛在空間中,我們采用貝葉斯優(yōu)化(BO)等優(yōu)化算法和粒子群優(yōu)化(PSO)執(zhí)行反向QSAR/inverse設(shè)計(jì)。這意味著我們可以生成針對QSAR模型預(yù)測進(jìn)行優(yōu)化的化合物設(shè)計(jì)。
這些表征的質(zhì)量至關(guān)重要,因?yàn)樗苯佑绊懞罄m(xù)應(yīng)用程序的可靠性和準(zhǔn)確性。我們根據(jù)DGCSMILES的有效性、新穎性和藥物相似性,以及量化QSAR性能和潛在空間目標(biāo)函數(shù)平滑度的指標(biāo)來驗(yàn)證我們的表征模型??傊?,這些驗(yàn)證使我們的科學(xué)家能夠做出明智的決策并自信地構(gòu)建ML模型。
機(jī)器學(xué)習(xí)
在本節(jié)中,我們將簡要介紹如何使用ML來預(yù)測活性和吸收、分布、代謝、排泄和毒性(ADMET)終點(diǎn)和化合物的物理化學(xué)性質(zhì)直接來自分子結(jié)構(gòu)─方法通常分別稱為QSAR和定量結(jié)構(gòu)-性質(zhì)關(guān)系(QSPR)建模。
預(yù)測模型的質(zhì)量取決于訓(xùn)練數(shù)據(jù)的質(zhì)量。我們的實(shí)驗(yàn)數(shù)據(jù)通過標(biāo)準(zhǔn)化分析生成,經(jīng)過精心策劃,以去除不可靠或不一致的測量結(jié)果。這些檢測包括logD、水溶性、Caco2通透性、微粒體清除率和hERG通道抑制。為回歸(連續(xù)預(yù)測)和分類任務(wù)(離散預(yù)測)實(shí)施了特定的管理流程,確保僅使用高質(zhì)量的數(shù)據(jù)。為了簡化ML活動(dòng)并促進(jìn)模型的定期訓(xùn)練和更新,我們實(shí)施了自動(dòng)化ML工作流程,其中包括化學(xué)結(jié)構(gòu)準(zhǔn)備、描述符計(jì)算、模型選擇、超參數(shù)優(yōu)化和模型交付。ML生成的預(yù)測最終使用可解釋性技術(shù)進(jìn)行解釋,該技術(shù)估計(jì)輸入特征對模型決策的貢獻(xiàn)。
近年來,深度學(xué)習(xí)技術(shù)在QSAR/QSPR建模中的應(yīng)用顯示出巨大的前景。特別是圖形神經(jīng)網(wǎng)絡(luò)(GNN),已被證明在某些端點(diǎn)上優(yōu)于隨機(jī)森林(RF)等傳統(tǒng)ML算法。然而,根據(jù)我們對數(shù)據(jù)集通??缭綆装俚揭蝗f多個(gè)數(shù)據(jù)點(diǎn)的經(jīng)驗(yàn),傳統(tǒng)的ML算法通常優(yōu)于深度學(xué)習(xí)模型。盡管如此,GNN已被證明在應(yīng)用于更大的數(shù)據(jù)集時(shí)有助于提高模型的性能和穩(wěn)健性。
預(yù)測性QSAR和QSPR模型在發(fā)現(xiàn)項(xiàng)目中發(fā)揮著關(guān)鍵作用,有助于化合物想法的選擇和優(yōu)先級排序。在這種情況下,一個(gè)應(yīng)用程序是我們的生成工具的評分函數(shù)。
生成式設(shè)計(jì)
使用DGC設(shè)計(jì)具有靶向特性的化合物最近已成為藥物化學(xué)中的一種強(qiáng)大方法。我們之前的評論確定了2017年至2020年間發(fā)布的100多種深度學(xué)習(xí)從頭設(shè)計(jì)方法。從那時(shí)起,人們對這個(gè)話題的興趣激增,使得跟蹤所有新文章變得困難。我們發(fā)現(xiàn)這些論文通常缺乏實(shí)際應(yīng)用的視角,因?yàn)樵S多研究人員沒有幸運(yùn)地能夠綜合和測試他們的設(shè)計(jì)。我們利用我們的機(jī)會(huì),定期成功地使用最先進(jìn)的2D和3D DGC工具來設(shè)計(jì)化合物,然后進(jìn)行制造和測試。
我們根據(jù)內(nèi)部反饋采用和修改的一個(gè)工具是REINVENT。這是一種強(qiáng)化學(xué)習(xí)方法,它使用正反饋循環(huán)生成得分更高的化合物設(shè)計(jì)。我們的研究結(jié)果表明,它產(chǎn)生相關(guān)分子的能力可以與用于推動(dòng)項(xiàng)目特定目標(biāo)的評分組件高度相關(guān)。特別是,與單獨(dú)使用2D分?jǐn)?shù)相比,基于藥效團(tuán)的匹配或?qū)臃謹(jǐn)?shù)等3D組件在所需化學(xué)空間中生成設(shè)計(jì)的速度要快。在隨后的迭代中,可以使用物理化學(xué)性質(zhì)和ADMET端點(diǎn)的高級QSAR模型以及更標(biāo)準(zhǔn)的計(jì)算化學(xué)工具來改善生成的化合物的性質(zhì)。
對任何生成工具獲得的結(jié)果進(jìn)行后處理都至關(guān)重要,主要有三個(gè)原因。首先,由于某些評分組件的固有計(jì)算成本,它們只能后驗(yàn)使用。這些評分方法的示例包括相對結(jié)合自由能(RBFE)和片段分子軌道(FMO)相互作用能。其次,深度生成工具不能總是同時(shí)優(yōu)化多個(gè)組件,因此,其中一些組件必須在后處理階段按順序應(yīng)用。例如,在口袋內(nèi)培養(yǎng)配體的方法通常側(cè)重于焓對效力的貢獻(xiàn),例如蛋白質(zhì)-配體相互作用。最后,藥物化學(xué)項(xiàng)目會(huì)隨著時(shí)間的推移而發(fā)展,目標(biāo)化合物的性質(zhì)也會(huì)隨之發(fā)展。鑒于此后處理步驟的重要性,我們正在開發(fā)自動(dòng)化管道,以集成傳統(tǒng)的計(jì)算化學(xué)、AI/ML和基于物理的計(jì)算,以加快這一過程(請參閱下面的計(jì)算管道)。
蛋白質(zhì)建模
準(zhǔn)確的蛋白質(zhì)模型對于藥物發(fā)現(xiàn)項(xiàng)目非常有用。通常,此類模型是使用X射線晶體學(xué)或低溫電子顯微鏡(cryo-EM)等實(shí)驗(yàn)方法獲得的。直到最近,只有非AI方法被用于構(gòu)建蛋白質(zhì)的同源模型,而這些模型沒有實(shí)驗(yàn)?zāi)P?。然而,最近,利用人工智能預(yù)測蛋白質(zhì)結(jié)構(gòu)的方法家族的一員AlphaFold2(AF2)在其預(yù)測中表現(xiàn)出了非凡的準(zhǔn)確性。我們的本地安裝是生成用于迭代蛋白質(zhì)構(gòu)建設(shè)計(jì)和準(zhǔn)備模型以擬合實(shí)驗(yàn)獲得的密度的重要資源。我們結(jié)合了AF2和ProteinMPNN提高蛋白質(zhì)穩(wěn)定性和產(chǎn)量。這種方法可以改變只能分離極少量蛋白質(zhì)的項(xiàng)目。AFMultimer的能力預(yù)測蛋白質(zhì)-蛋白質(zhì)復(fù)合物的3D結(jié)構(gòu)有助于結(jié)構(gòu)生物學(xué)家獲得靶點(diǎn)的初始模型。此類模型可以擬合到實(shí)驗(yàn)密度中并進(jìn)一步細(xì)化??梢允褂肍oldDock對新型復(fù)合物進(jìn)行建模,它優(yōu)化了AlphaFold多聚體運(yùn)行的多個(gè)序列比對,根據(jù)區(qū)分可接受模型和錯(cuò)誤模型的分?jǐn)?shù)產(chǎn)生更好的預(yù)測。
AlphaFold DB數(shù)據(jù)庫由DeepMind提供并由EBI托管的AF2模型數(shù)據(jù)庫,結(jié)合我們安裝的AFMultimer,是藥物設(shè)計(jì)許多方面的巨大資源,從靶點(diǎn)配體估計(jì)到VS和對接。然而,我們的目標(biāo)是在與目標(biāo)配體的復(fù)合物中為我們的藥物靶點(diǎn)構(gòu)建我們自己的實(shí)驗(yàn)結(jié)構(gòu)。當(dāng)這是不可能的時(shí),我們通常在已知配體存在的情況下使用經(jīng)典方法構(gòu)建同源模型,以便結(jié)合位點(diǎn)中的側(cè)鏈處于適合對接的構(gòu)象。
深度學(xué)習(xí)的最新進(jìn)展也使配體-蛋白質(zhì)復(fù)合物的預(yù)測方法成為可能。RoseTTAFold-AllAtom,Umol和AF3等方法聲稱可以預(yù)測靶蛋白與小分子配體、金屬離子、核酸和共價(jià)結(jié)合劑相互作用的結(jié)構(gòu)細(xì)節(jié),其精度超過了已建立的對接方法。我們以極大的興趣關(guān)注這一領(lǐng)域的發(fā)展。
主動(dòng)學(xué)習(xí)
藥物化學(xué)通常在有限的實(shí)驗(yàn)數(shù)據(jù)下運(yùn)作。對于致力于新靶點(diǎn)的項(xiàng)目的苗頭化合物到先導(dǎo)階段尤其如此。在數(shù)據(jù)稀少且生成成本高昂的情況下,主動(dòng)學(xué)習(xí)(AL)可能非常有用,因?yàn)樗哪康氖且宰钣行У姆绞缴勺銐虻臄?shù)據(jù)。準(zhǔn)確地說,AL是一種基于ML的策略,旨在以最少的數(shù)據(jù)最大限度地提高特定任務(wù)(目標(biāo)函數(shù))的學(xué)習(xí)性能。該算法根據(jù)所謂的獲取函數(shù)從預(yù)定義的未標(biāo)記項(xiàng)目池中迭代選擇,該函數(shù)平衡了開發(fā)(根據(jù)當(dāng)前知識(shí)選擇最有前途的項(xiàng)目)和探索(從化學(xué)空間中不太已知或未知的區(qū)域中進(jìn)行選擇,以增強(qiáng)模型的整體知識(shí))。
類似地,BO試圖在完全定義的參數(shù)空間內(nèi)確定下一個(gè)要測試的化合物,以找到目標(biāo)的最佳在這種情況下,這可能是多參數(shù)優(yōu)化(MPO)分?jǐn)?shù)。這些MPO評分可以包含具有更多數(shù)據(jù)點(diǎn)(如效力、親脂性、代謝穩(wěn)定性和通透性測量)的主要檢測成分,也可以包含具有較少數(shù)據(jù)點(diǎn)(如針對酶、受體和轉(zhuǎn)運(yùn)蛋白的脫靶活性)的后續(xù)檢測,具體取決于項(xiàng)目要求。在藥物化學(xué)中,AL用于指導(dǎo)從廣闊的化學(xué)空間中選擇信息豐富的化合物。我們使用AL來實(shí)現(xiàn)超大型按需化合物庫(如EnamineREAL)的VS并減少實(shí)現(xiàn)項(xiàng)目目標(biāo)所需的化合物數(shù)量。
傳統(tǒng)的基于結(jié)構(gòu)和基于配體的方法對于數(shù)十億種化合物的暴力篩選來說,計(jì)算成本太高且耗時(shí)。此外,VS成本隨著評分函數(shù)的復(fù)雜性而增加。我們的解決方案基于開源MolPal構(gòu)建,將BO與VS工具和基于高級分子動(dòng)力學(xué)(MD)的評分函數(shù)相結(jié)合,將探索重點(diǎn)放在性能最高的化合物上。
設(shè)計(jì)-制造-測試-分析(DMTA)循環(huán)可以配置為探索化學(xué)空間的AL過程。我們以這種方式使用BO,通過選擇要制造和實(shí)驗(yàn)驗(yàn)證的化合物來協(xié)助決策過程。像這樣信息豐富的化合物的選擇最終應(yīng)該會(huì)導(dǎo)致循環(huán)次數(shù)的減少。在其AL形式中,BO對來自其他工具或藥物化學(xué)家想法的預(yù)定義化合物列表進(jìn)行排名。雖然這種方法限制了探索能力,但它可以提高藥物設(shè)計(jì)師對所提出解決方案的接受度,并將搜索空間減少到更易于管理的大小。在其生成形式中,BO提出了新的點(diǎn),以在基于機(jī)器的化學(xué)空間表征中進(jìn)行測試(見上一節(jié))。建議的點(diǎn)必須解碼為化學(xué)結(jié)構(gòu)。這些設(shè)計(jì)可以挑戰(zhàn)團(tuán)隊(duì)的心態(tài)并避免不必要的人為偏見。然而,它們并不總是很容易合成。藥物化學(xué)團(tuán)隊(duì)的反饋可以突出改進(jìn)的協(xié)同機(jī)會(huì),例如,標(biāo)記來自單個(gè)異常結(jié)果的多個(gè)設(shè)計(jì)以及來自合成改進(jìn)的新機(jī)會(huì)。
合成可追溯性和逆合成預(yù)測
化合物的合成或“Make”階段通常是DMTA循環(huán)中的限速步驟。因此,合成可處理性是“設(shè)計(jì)”階段的一個(gè)關(guān)鍵方面。這適用于人類和AI生成的設(shè)計(jì)。目前,大多數(shù)生成式設(shè)計(jì)工具并未在其用于生長或評分化合物的算法中明確編碼此標(biāo)準(zhǔn)。然而,該領(lǐng)域最令人興奮的發(fā)展之一是AI計(jì)算機(jī)輔助綜合規(guī)劃(CASP)工具的發(fā)明。這使得使用成熟的逆合成分析或更快的ML模型通過合成可處理性進(jìn)行評分或過濾成為可能。藥物化學(xué)家通常在設(shè)計(jì)化合物時(shí)考慮合成路線,或者至少在腦海中估計(jì)所涉及的難度。
最先進(jìn)的AI工具尚未達(dá)到藥物化學(xué)家團(tuán)隊(duì)每天分享專業(yè)知識(shí)和知識(shí)的復(fù)雜程度和效率,例如關(guān)于構(gòu)建砌塊和中間體的可用性和反應(yīng)性。但是,添加內(nèi)部數(shù)據(jù),例如來自電子實(shí)驗(yàn)室筆記本(ELN)和積木庫存的數(shù)據(jù),確實(shí)提高了工具的有效性。AI逆合成越來越多地被藥物和計(jì)算化學(xué)家使用,例如用于骨架跳躍、靈感和更輕松地規(guī)劃簡單路線。與其他領(lǐng)域的AI一樣,如果期望與用戶自己的專業(yè)知識(shí)和特定經(jīng)驗(yàn)相當(dāng),逆合成輸出可能會(huì)給人留下令人失望的第一印象。我們的化學(xué)家通過Web界面使用商業(yè)AICASP工具來獲得靈感或交叉檢查他們的路線規(guī)劃;他們發(fā)現(xiàn)其指向背景文獻(xiàn)的快速簡便的鏈接非常有用。事實(shí)證明,評估工具(其中一些非常昂貴)對我們來說很困難,這可能是因?yàn)槲覀儗π阅艿钠谕磺袑?shí)際。對于生成式設(shè)計(jì)工作流程,ML合成復(fù)雜性分?jǐn)?shù)具有一些實(shí)用性,但我們始終將合成可追蹤性的手動(dòng)評估作為最后步驟之一。
安全性評估
除了合成的可處理性外,還必須考慮給定化合物設(shè)計(jì)的安全風(fēng)險(xiǎn)。安全性仍然是藥物開發(fā)項(xiàng)目的主要關(guān)注點(diǎn)。通常,只有在部署了大量資源后,安全風(fēng)險(xiǎn)才會(huì)在藥物開發(fā)的后期變得明顯。因此,越來越多的AI/ML方法可以更早、更便宜地發(fā)現(xiàn)安全風(fēng)險(xiǎn),受到相當(dāng)大的關(guān)注。例如,人們已經(jīng)開發(fā)了純計(jì)算機(jī)模型,以降低藥物誘導(dǎo)的肝損傷(DILI)的可能性,基于化合物描述符(如sp中的碳原子數(shù))雜交。計(jì)算機(jī)模擬模型是可取的,因?yàn)樗鼈兛梢栽诤铣苫衔镏皫椭O(shè)計(jì),從而可能降低與探索性安全性分析相關(guān)的成本。這些模型往往是基于規(guī)則的,或者采用傳統(tǒng)的監(jiān)督式ML算法。然而,為了提高預(yù)測性能,結(jié)合體外數(shù)據(jù)(例如,膽鹽輸出泵(BSEP)轉(zhuǎn)運(yùn)蛋白抑制和細(xì)胞毒性數(shù)據(jù))來構(gòu)建更復(fù)雜的系統(tǒng)是有益的,例如貝葉斯模型。
與僅涵蓋有限毒性方面的個(gè)體體外檢測相比,組學(xué)技術(shù)提供了響應(yīng)藥物暴露的細(xì)胞狀態(tài)的更全面快照。幸運(yùn)的是,新的高通量組學(xué)技術(shù)允許創(chuàng)建足夠大小的數(shù)據(jù)集來訓(xùn)練AI模型。這些模型可以識(shí)別組學(xué)譜中與導(dǎo)致器官毒性的不良結(jié)果相關(guān)的復(fù)雜模式。經(jīng)過訓(xùn)練后,他們可以高精度地預(yù)測新化合物的毒性風(fēng)險(xiǎn),優(yōu)于現(xiàn)有的體外方法。此外,這種方法不僅限于小分子,而且同樣適用于包括生物制劑在內(nèi)的其他形式。為了為我們的AI模型創(chuàng)建訓(xùn)練數(shù)據(jù)集,我們利用我們的高通量轉(zhuǎn)錄組學(xué)平臺(tái)(ScreenSeq)生成了一個(gè)從細(xì)胞模型獲得的轉(zhuǎn)錄組學(xué)圖譜數(shù)據(jù)庫。由數(shù)百種表征良好的不同類型的化合物生成的曲線可作為有用的參考點(diǎn)。
計(jì)算管道
從頭設(shè)計(jì)方法的出現(xiàn),尤其是深度生成式AI方法,增加了對大量虛擬化合物進(jìn)行評估和優(yōu)先排序的需求。這通常是通過將預(yù)測模型與更簡單的計(jì)算屬性和/或更復(fù)雜的基于物理的分?jǐn)?shù)一起應(yīng)用來實(shí)現(xiàn)的。根據(jù)多個(gè)標(biāo)準(zhǔn)(藥物相似性、預(yù)測活性和ADMET屬性、新穎性、物理化學(xué)性質(zhì)、合成可追蹤性等)對每個(gè)虛擬分子進(jìn)行評分,然后使用臨時(shí)的、項(xiàng)目特定的MPO函數(shù)對不同的分?jǐn)?shù)進(jìn)行匯總。正確參數(shù)化后,該MPO分?jǐn)?shù)可用于對虛擬分子進(jìn)行排名,并為下一輪合成優(yōu)先考慮最有前途的化合物。部署此類管道時(shí)的一個(gè)技術(shù)挑戰(zhàn)是不同任務(wù)之間的編排,因?yàn)橥ǔI婕暗墓ぞ邤?shù)量和多樣性。一個(gè)好的編排器需要能夠在不同的文件格式之間進(jìn)行交互,處理多個(gè)環(huán)境,有效地管理資源,在需要時(shí)擴(kuò)展作業(yè)。由于AI/ML領(lǐng)域正在迅速發(fā)展,因此還需要設(shè)計(jì)出能夠輕松添加新組件或更改部署它的基礎(chǔ)設(shè)施的方式。
DMTA循環(huán)的自動(dòng)化可以節(jié)省時(shí)間和資源,同時(shí)編碼最佳實(shí)踐并提高可重復(fù)性,這有助于在選擇合成設(shè)計(jì)時(shí)保持客觀性。有好幾個(gè)商業(yè)和開源平臺(tái)在設(shè)計(jì)時(shí)考慮了自動(dòng)化藥物設(shè)計(jì)。我們深受Green和Besnard等人工作的影響。并尋求盡可能使用Knime或我們內(nèi)部的高性能計(jì)算(HPC)流水線解決方案來自動(dòng)化我們的工作流程。我們面臨著與BRADSHAW作者相同的挑戰(zhàn)集成性、穩(wěn)健性、簡單性和靈活性。每個(gè)管道都需要適應(yīng)項(xiàng)目不斷變化的需求,同時(shí)至少部分可被其他項(xiàng)目重用。
藥物化學(xué)項(xiàng)目背景下的AI
AI設(shè)計(jì)工具的出現(xiàn),加上基于物理的方法的日益影響和HPC成本的降低,促使一些制藥公司探索不同的工作方式。在Evotec,我們有一個(gè)AI/ML研發(fā)小組(計(jì)算機(jī)研發(fā)或isRD),負(fù)責(zé)將尖端技術(shù)調(diào)整和集成到我們的技術(shù)堆棧中,還有一個(gè)運(yùn)營小組(分子架構(gòu)師或MAs),他們將這些技術(shù)應(yīng)用于與化學(xué)團(tuán)隊(duì)合作的發(fā)現(xiàn)項(xiàng)目和我們的合作伙伴。MA的概念(如圖1所示)是融合藥物和計(jì)算化學(xué)的經(jīng)驗(yàn)和專業(yè)知識(shí),在數(shù)據(jù)科學(xué)和計(jì)算機(jī)工具的基礎(chǔ)上工作。我們認(rèn)為它是建立信任、實(shí)現(xiàn)雄心勃勃的目標(biāo)和加快潛在候選藥物發(fā)現(xiàn)的有力推動(dòng)者。MA確保(i)使用正確的工具和方法,無論其來源如何,也無論它們是否使用AI/ML,(ii)數(shù)據(jù)干凈且易于理解,(iii)項(xiàng)目目標(biāo)明確且得到滿足,以及(iv)創(chuàng)建定制的計(jì)算管道與高效的可操作DMTA工作流程相結(jié)合,以最少的化合物數(shù)量測試給定的設(shè)計(jì)假設(shè)。

圖1 Evotec分子設(shè)計(jì)的卓越秘訣
D2MTL(Design-Decide-Make-Test-Learn)的概念是由MA引入的,作為成熟的DMTA循環(huán)的演變。“Decide”的加入強(qiáng)調(diào)了選擇階段與主動(dòng)學(xué)習(xí)相結(jié)合的重要性,此時(shí)優(yōu)先考慮由人類和機(jī)器組合生成的分子設(shè)計(jì)。我們建議在工作流程中建立高效的Decide階段是實(shí)現(xiàn)卓越分子設(shè)計(jì)和確保項(xiàng)目順利進(jìn)行的關(guān)鍵。這種合作活動(dòng)不僅為藥物優(yōu)化過程提供了結(jié)構(gòu),還有助于我們的團(tuán)隊(duì)建立對藥物和計(jì)算化學(xué)更深入的相互理解。將“Analyze”替換為“Learn”表征藥物化學(xué)家的學(xué)習(xí)以及預(yù)測模型的評估和再訓(xùn)練。這種新的工作方式需要與快速綜合和測試進(jìn)行高度集成,以提高循環(huán)效率。圖2說明了這個(gè)概念,并顯示了本文中描述的應(yīng)用程序如何適應(yīng)。

圖2 AI/ML技術(shù)如何融入設(shè)計(jì)-決策-制造-測試-學(xué)習(xí)(D2MTL)循環(huán)
結(jié)論與展望
人工智能與藥物化學(xué)的整合是近年來計(jì)算化學(xué)方法學(xué)最重要的發(fā)展。預(yù)測化合物特性、生成滿足特定項(xiàng)目需求的創(chuàng)新設(shè)計(jì)、確定3D蛋白質(zhì)結(jié)構(gòu)重排或虛擬篩選數(shù)十億種化合物的能力都是非常有用的發(fā)展。我們投資于工具的開發(fā),通常嚴(yán)重依賴開源軟件和公開可用的數(shù)據(jù),例如經(jīng)過訓(xùn)練的模型。我們非常感謝AZ等作者和組織,以及拜耳、谷歌DeepMind和麻省理工學(xué)院他們決定與藥物發(fā)現(xiàn)界分享他們的進(jìn)展。有效使用這些工具需要實(shí)驗(yàn)和AI數(shù)據(jù)科學(xué)家、程序員以及計(jì)算和藥物化學(xué)家之間的密切合作。此外,如果我們能夠在設(shè)計(jì)階段使用AI/ML準(zhǔn)確預(yù)測新分子的臨床前和人體藥代動(dòng)力學(xué)特征,則可以顯著減少對動(dòng)物試驗(yàn)的需求。
我們已經(jīng)介紹了AI對我們的藥物化學(xué)項(xiàng)目產(chǎn)生積極影響的一些領(lǐng)域。我們預(yù)計(jì)它的使用會(huì)隨著對單個(gè)技術(shù)優(yōu)點(diǎn)和缺點(diǎn)的認(rèn)識(shí)而增長。然而,由于多種原因,這些方法的采用遠(yuǎn)非普遍。
例如,生成方法仍然可以產(chǎn)生化學(xué)結(jié)構(gòu),這些結(jié)構(gòu)可能是不穩(wěn)定的、合成上不可行或非原創(chuàng)的。盡管AI/ML出現(xiàn)了,但幾十年來一直困擾QSAR領(lǐng)域的問題仍然存在,例如使用稀疏訓(xùn)練數(shù)據(jù)對活動(dòng)懸崖和非累加性進(jìn)行建模。我們相信,人機(jī)協(xié)同,或者更準(zhǔn)確地說是機(jī)器在環(huán),仍然是最好的方法,但這種算法和主觀決策的混合意味著相對貢獻(xiàn)很難分解。此外,藥物化學(xué)家抵制制造他們認(rèn)為有缺陷的化合物,但另一方面,AI生成的設(shè)計(jì),即使經(jīng)過分類和輪次反饋和改進(jìn),也并不總是具有足夠的質(zhì)量,以至于它們可以不加檢查或未經(jīng)修改地使用。
仍有許多改進(jìn)的機(jī)會(huì),例如創(chuàng)建更符合特定項(xiàng)目需求的潛在空間、在生成式設(shè)計(jì)工具中增加3D組件的使用、改進(jìn)AI的可解釋性以及使用內(nèi)置合成路線創(chuàng)建的生成式設(shè)計(jì)。后兩個(gè)方面反過來應(yīng)該會(huì)提高計(jì)算經(jīng)驗(yàn)不足的化學(xué)家的采用和文化接受度。最近在深度學(xué)習(xí)架構(gòu)中納入了基于物理的方法,這使得計(jì)算屬性、優(yōu)化分子幾何形狀和分析扭轉(zhuǎn)角成為可能,量子力學(xué)(QM)精度大大降低了計(jì)算成本。然而,在科技巨頭的世界里,重點(diǎn)一直是使用深度神經(jīng)網(wǎng)絡(luò)做所有事情。例如,Google DeepMind和Isomorphic Laboratories開發(fā)了AF3不使用AF2中采用的力場建模。由于數(shù)據(jù)的稀缺性和分子環(huán)境的復(fù)雜性,我們預(yù)計(jì)物理學(xué)、化學(xué)和數(shù)據(jù)科學(xué)仍然是必需的,并且可以通過更大的整合來增強(qiáng)它們。在可預(yù)見的未來,我們還期待人工智能幫助從化學(xué)文獻(xiàn)中提取數(shù)據(jù),預(yù)測蛋白質(zhì)-配體復(fù)合物的構(gòu)象選擇,并提供經(jīng)過藥物化學(xué)訓(xùn)練的基于LLM的虛擬助手。
這不是AI在某種人機(jī)競爭中超過人類水平表現(xiàn)的問題。幾十年來,一些藥物化學(xué)家一直使用計(jì)算工具來輔助他們的工作。這句話歸功于DerekLowe,“AI不會(huì)是藥物化學(xué)家的終結(jié),但它將是不使用AI的藥物化學(xué)家的終結(jié)”更接近我們的思維方式。我們不認(rèn)為這是威脅性的。在1960年代,你可以在那句話中用AI代替QSAR。我們希望通過結(jié)合語言(包括SMILES字符串、化學(xué)名稱、蛋白質(zhì)序列等)、圖像(例如結(jié)構(gòu)草圖)、3D結(jié)構(gòu)信息(例如蛋白質(zhì)-配體復(fù)合物)和組學(xué)數(shù)據(jù)(例如轉(zhuǎn)錄組學(xué))來變得更加強(qiáng)大。我們相信,在可預(yù)見的未來,像我們這樣的組織有能力繼續(xù)從AI/ML的發(fā)展中受益。
我們介紹了我們在工業(yè)藥物化學(xué)中使用AI/ML的觀點(diǎn)和經(jīng)驗(yàn)。盡管我們對這個(gè)話題充滿熱情,但我們還是試圖從我們的描述中去除炒作,并帶來現(xiàn)實(shí)的視角。與技術(shù)本身同樣重要的是采用的組織、溝通和文化方面。我們同意Griffen及其同事的觀點(diǎn)需要一種不同的工作方式,這應(yīng)該會(huì)在不久的將來帶來社會(huì)效益。
參考資料:
https://doi.org/10.1021/acs.jmedchem.4c03044

來源:Internet