中文字幕一级黄色A级片|免费特级毛片。性欧美日本|偷拍亚洲欧美1级片|成人黄色中文小说网|A级片视频在线观看|老司机网址在线观看|免费一级无码激情黄所|欧美三级片区精品网站999|日韩av超碰日本青青草成人|一区二区亚洲AV婷婷

您當(dāng)前的位置:檢測資訊 > 科研開發(fā)

人工智能在藥物合成設(shè)計(jì)中的應(yīng)用

嘉峪檢測網(wǎng)        2021-07-09 18:42

開發(fā)一款新藥通常要經(jīng)過DMTA四個(gè)階段,即design(設(shè)計(jì))、make(合成)、test(測試)和analyze(分析),其中每一部分都需要大量的時(shí)間和資源投入。尤其是在藥物合成階段,在已知目標(biāo)分子結(jié)構(gòu)的情況下,如何加快目標(biāo)分子合成路徑的設(shè)計(jì)并減少合成失敗的幾率,是藥物化學(xué)家們最關(guān)心的問題之一。

 

計(jì)算機(jī)輔助合成設(shè)計(jì)(computer-assisted synthesis planning, 簡稱CASP)從上世紀(jì)60年代就已經(jīng)出現(xiàn)。早期的CASP軟件基于手工編碼的反應(yīng)規(guī)則,結(jié)合引導(dǎo)啟發(fā)方法來輔助合成路徑的設(shè)計(jì),被認(rèn)為是最早期的人工智能藥物合成設(shè)計(jì)。然而,初代的智能藥物合成完全依賴于化學(xué)家的專業(yè)知識,沒有用到基于大量數(shù)據(jù)的統(tǒng)計(jì)學(xué)習(xí)。直到最近二十年機(jī)器學(xué)習(xí)的興起,將自動化數(shù)據(jù)提取和管道式訓(xùn)練引入CASP,使得CASP可以不斷擴(kuò)展來吸收新的反應(yīng)數(shù)據(jù),并集成在自動化流水線中,成為新一代基于人工智能的CASP,即智能藥物合成設(shè)計(jì)。

 

本文主要介紹智能藥物合成設(shè)計(jì)的主要內(nèi)容,并以麻省理工大學(xué)的ASKCOS作為實(shí)例,介紹學(xué)術(shù)界和業(yè)界是如何共同開發(fā)智能藥物合成設(shè)計(jì)軟件的。

 

智能藥物合成設(shè)計(jì)的主要內(nèi)容

 

智能藥物合成設(shè)計(jì)主要包括三方面的內(nèi)容:逆合成設(shè)計(jì)、反應(yīng)條件推薦和正向反應(yīng)預(yù)測 。

 

人工智能在藥物合成設(shè)計(jì)中的應(yīng)用

逆合成設(shè)計(jì)、條件推薦和正向反應(yīng)預(yù)測示意圖

 

逆合成設(shè)計(jì)(retrosynthetic planning)是智能藥物合成設(shè)計(jì)中最主要的環(huán)節(jié)。逆合成設(shè)計(jì)從合成路線的終點(diǎn)即目標(biāo)分子出發(fā)逆流而上,將目標(biāo)分子斷裂成新的小分子(即前體),再在前體上進(jìn)行新一輪的斷裂形成新的前體,如此不斷迭代,直到所有的前體化合物都是市面上有售的化學(xué)原料為止。這樣的迭代過程對藥物化學(xué)家是一個(gè)難題,因?yàn)槿四X無法同時(shí)對大量的分子進(jìn)行評估,也無法同時(shí)處理多條假設(shè)的合成路線。相反,迭代問題是計(jì)算機(jī)擅長的領(lǐng)域。計(jì)算機(jī)可以通過各種樹搜索算法的使用,將單步逆合成擴(kuò)展到全路線設(shè)計(jì),每一步可以產(chǎn)生數(shù)千個(gè)前體。另一方面,由于合成路線的終點(diǎn)往往由分子是否能被買到?jīng)Q定,目標(biāo)分子合成能力的評估并不是一個(gè)基于分子結(jié)構(gòu)的平滑方程,而逆合成軟件可以通過神經(jīng)網(wǎng)絡(luò)模型來模擬這樣的非線性方程。

 

有了合成路線之后,還需要考慮實(shí)驗(yàn)室中進(jìn)行每一步合成的可行性。人們希望智能藥物合成軟件也能夠推薦反應(yīng)條件,減少經(jīng)驗(yàn)篩選耗費(fèi)的時(shí)間。然而,通過人工智能推薦反應(yīng)條件的難度在于,一個(gè)完整的反應(yīng)條件包括反應(yīng)物的數(shù)量、質(zhì)量或濃度、反應(yīng)時(shí)間、試劑與催化劑的加入順序等很多的細(xì)節(jié),然而大部分的反應(yīng)數(shù)據(jù)不能完整地記錄這些細(xì)節(jié)。此外,反應(yīng)條件的推薦與反應(yīng)的目的和評估條件也有關(guān)聯(lián)。有些反應(yīng)人們追求反應(yīng)物的轉(zhuǎn)化率,而另一些反應(yīng)人們希望盡量降低副產(chǎn)物的生成。因此,反應(yīng)條件的推薦往往需要結(jié)合反應(yīng)優(yōu)化這一更為成熟的領(lǐng)域。反應(yīng)優(yōu)化以反應(yīng)條件做變量來構(gòu)建反應(yīng)性能的模型,而機(jī)器學(xué)習(xí)可以通過各種搜索算法來加快模型的優(yōu)化并提供不確定性的評估。

 

正向反應(yīng)預(yù)測通過預(yù)測反應(yīng)產(chǎn)物來確保合成路線設(shè)計(jì)的可操作性。利用機(jī)器學(xué)習(xí)的反應(yīng)預(yù)測在近幾年得到了較快的發(fā)展,主要有基于反應(yīng)規(guī)則與模板的預(yù)測、圖神經(jīng)網(wǎng)絡(luò)預(yù)測原子和化學(xué)鍵從反應(yīng)物到產(chǎn)物的變化、基于自然語言處理的SMILES產(chǎn)物預(yù)測三大方法。正向反應(yīng)預(yù)測的主要作用是預(yù)測副產(chǎn)物的生成和反應(yīng)的選擇性。將前向反應(yīng)預(yù)測和逆向合成設(shè)計(jì)結(jié)合,可以用前向反應(yīng)預(yù)測來評估逆合成設(shè)計(jì)。逆合成設(shè)計(jì)中每一個(gè)單步驟合成都有可能存在可替換的起始材料集合,前向反應(yīng)預(yù)測可以對這些集合進(jìn)行排序,從而選出最佳的方案。

 

智能藥物合成設(shè)計(jì)的實(shí)例分析:ASKCOS

 

美國麻省理工大學(xué)與十余家大型制藥與生物科技公司合作,成立了“藥物發(fā)現(xiàn)與合成的機(jī)器學(xué)習(xí)聯(lián)盟”(Machine Learning for Pharmaceutical Discover and Synthesis Consortium, 簡稱MLPDS),旨在促進(jìn)藥物自動化發(fā)現(xiàn)與合成軟件的開發(fā)。該聯(lián)盟的實(shí)力處于全球領(lǐng)先水平,其中麻省理工大學(xué)化學(xué)工程系的Coley和Jensen團(tuán)隊(duì)是最早開始研究人工智能應(yīng)用于化學(xué)反應(yīng)預(yù)測及逆合成分析的團(tuán)隊(duì)之一,而聯(lián)盟中的企業(yè)成員則包括阿利斯康、巴斯夫、拜耳、葛蘭素史克、禮來、默克、諾華、輝瑞、藥明康德等巨頭。聯(lián)盟開發(fā)的開源智能藥物合成設(shè)計(jì)軟件ASKCOS被應(yīng)用在成員公司的DMTA工作流程中,而成員公司通過對ASKCOS的功能提出反饋來促進(jìn)ASKCOS的進(jìn)一步開發(fā)。

 

ASKCOS提供了獨(dú)立的圖形用戶界面,使得化學(xué)家們可以輕松地與ASKCOS建議的路線和預(yù)測進(jìn)行交互。不同公司和不同部門對ASKCOS使用的側(cè)重點(diǎn)不一。有些化學(xué)家通過同時(shí)使用合成設(shè)計(jì)工具和傳統(tǒng)的數(shù)據(jù)庫來查找已知反應(yīng),以便快速地產(chǎn)生新的想法,而計(jì)算化學(xué)家和化學(xué)工程師則更多地關(guān)注分子設(shè)計(jì)和工藝開發(fā)。這樣的好處在于,人們可以從不同角度對ASKCOS的性能進(jìn)行評估,并且對模型的建議進(jìn)行驗(yàn)證。因此,對使用人員進(jìn)行基礎(chǔ)培訓(xùn)非常重要,包括介紹軟件背后的理論以及如何使用軟件中不同的模塊,并傳達(dá)給使用人員這樣一個(gè)信息:ASKCOS的目標(biāo)是通過已知反應(yīng)數(shù)據(jù)進(jìn)行合成路線的預(yù)測,而不是作為一個(gè)搜索軟件用來查找已知的合成路徑。反之,如果沒有這些必要的培訓(xùn),化學(xué)家很有可能帶有偏見地去嘗試ASKCOS,比如輸入一個(gè)自己喜歡的化合物,卻沒有得到已知的合成路徑,就很可能勸阻大家不要再使用這些軟件。因此,開發(fā)人員與藥物化學(xué)專家的交流是ASKCOS能快速進(jìn)步的基本條件。

 

ASKCOS最重要的功能是多步合成路線設(shè)計(jì),而使用結(jié)果表明,合成路徑設(shè)計(jì)能否成功的主要因素在于可用化合物數(shù)據(jù)庫的覆蓋范圍。換句話說,公司能購買到的化合物越多,成功獲得合成路徑的可能性就越大。葛蘭史素克公司發(fā)現(xiàn),通過ASKCOS設(shè)計(jì)69個(gè)目標(biāo)分子的合成,如果采用公開的化合物數(shù)據(jù)庫(含138k化合物),54%的分子發(fā)現(xiàn)了可用的合成路徑。而使用公司內(nèi)部的擴(kuò)展數(shù)據(jù)庫(含8M化合物),則ASKCOS可以為67%的分子的規(guī)劃可用合成路徑。這種現(xiàn)象是由智能算法中搜索成功的條件決定的,如前文所述,通常搜索的終止條件是化合物的商業(yè)可用性,即該材料是否能被買到。此外,此現(xiàn)象給了人們一種啟發(fā),因?yàn)槌跏嫉腃ASP系統(tǒng)往往是根據(jù)公用的數(shù)據(jù)集, 如Reaxys和USPTO。如果公司可以基于自己內(nèi)部的數(shù)據(jù)庫對ASKCOS進(jìn)行進(jìn)一步的訓(xùn)練,則可以對多步合成路線的設(shè)計(jì)產(chǎn)生積極的影響,并且公司內(nèi)部的數(shù)據(jù)庫往往比公開的數(shù)據(jù)庫更為重要。禮來公司的數(shù)據(jù)表明,當(dāng)采用公司內(nèi)部的模板集(含13297個(gè)模板)訓(xùn)練其內(nèi)部規(guī)劃平臺ChemoPrint,成功提供路線的幾率為40.1%,而加入了公開的專利數(shù)據(jù)(50275個(gè)模板)后,其成功率僅提高了5.8%。

 

ASKCOS的交互性在自動設(shè)計(jì)出現(xiàn)問題時(shí)起到了關(guān)鍵作用。ASKCOS可以在單步合成預(yù)測中實(shí)現(xiàn)交互式路徑規(guī)劃。一旦自動合成路徑設(shè)計(jì)失敗,專家可以和軟件進(jìn)行交互式探索。ASKCOS可以將類似的建議根據(jù)K-means聚類算法進(jìn)行歸類,然后邀請化學(xué)家介入,將已歸類的多種路徑可視化顯示出來供化學(xué)家參考。

 

除了多步合成路徑設(shè)計(jì),ASKCOS也具有正向反應(yīng)預(yù)測和反應(yīng)條件建議的功能。正向反應(yīng)預(yù)測的目的是驗(yàn)證全路徑設(shè)計(jì)提供的路徑,主要用來識別潛在的副產(chǎn)物和雜質(zhì)。與逆合成設(shè)計(jì)類似,公司也可以通過內(nèi)部的反應(yīng)數(shù)據(jù)對模型進(jìn)行進(jìn)一步訓(xùn)練,以提高特定化學(xué)反應(yīng)的準(zhǔn)確性。反應(yīng)條件的建議功能由于受到有限的訓(xùn)練數(shù)據(jù)的限制,被采用的機(jī)會較低。化學(xué)家們通常通過這個(gè)模型來確認(rèn)自己提出的條件,或者加以簡單的評估和建議來向開發(fā)者提供反饋。

 

ASKCOS在逆合成分析中的案例之一是Branebrutinib的逆合成設(shè)計(jì)。雖然該化合物的合成路線已在2016年被文獻(xiàn)報(bào)道,但當(dāng)時(shí)ASKCOS的訓(xùn)練數(shù)據(jù)中并沒有加入這一路線。ASKCOS采用與文獻(xiàn)報(bào)道類似的起始材料,提出Boc保護(hù)烷基酰胺中間體3的N-H鍵,并建議通過3和4的C-N偶聯(lián)來合成1。文獻(xiàn)報(bào)道中作者提出了他們嘗試過C-N偶聯(lián),但發(fā)現(xiàn)甲酰胺的存在阻止了偶聯(lián)的進(jìn)行,因此使用了一個(gè)腈類的類似物質(zhì)來替代4。雖然ASKCOS沒能像化學(xué)家一樣捕捉到這一細(xì)節(jié),但它提出的想法和化學(xué)家最初的嘗試不謀而合,并且它提出的分子斷裂也是合理的。

 

人工智能在藥物合成設(shè)計(jì)中的應(yīng)用

 ASKCOS對branebrutinib的逆合成分析 

 

智能藥物合成設(shè)計(jì)的難點(diǎn)

 

ASKCOS的逆合成分析案例與文獻(xiàn)報(bào)道的差異揭示了智能藥物合成設(shè)計(jì)軟件開發(fā)中的一大難點(diǎn):數(shù)據(jù)偏見。基于文獻(xiàn)的化學(xué)反應(yīng)數(shù)據(jù)庫通常只包括最終成功的反應(yīng)路徑和起始材料,而在設(shè)計(jì)過程中因?yàn)楦鞣N原因而被替換的路徑和材料則很少會收錄到數(shù)據(jù)庫中,但這些信息對化學(xué)家和智能軟件設(shè)計(jì)合成路線都非常有用。同時(shí),化學(xué)反應(yīng)數(shù)據(jù)庫通常只包含高收益的正面數(shù)據(jù)(成功的反應(yīng)),卻很少記錄負(fù)面數(shù)據(jù)(失敗的反應(yīng)),導(dǎo)致模型很難去預(yù)測一個(gè)反應(yīng)失敗的可能性。此外由于分析化學(xué)物質(zhì)的高成本,不是所有的研究都會把所有副產(chǎn)物逐一分析,而副產(chǎn)物的缺失將導(dǎo)致化學(xué)反應(yīng)數(shù)據(jù)本身的不完整。同時(shí),有很多已經(jīng)獲得的但沒有公開的實(shí)驗(yàn)數(shù)據(jù),尤其是高通量實(shí)驗(yàn)數(shù)據(jù)沒有被公開和分享,或者數(shù)據(jù)的記錄格式不適合用計(jì)算機(jī)讀取,使數(shù)據(jù)無法及時(shí)收錄到公共數(shù)據(jù)庫中。

 

智能藥物合成設(shè)計(jì)的另一大難題是評估標(biāo)準(zhǔn)的統(tǒng)一。在模型準(zhǔn)確率的評估中,Top-k準(zhǔn)確率是常用的指標(biāo)之一。在Top-k準(zhǔn)確率中,標(biāo)準(zhǔn)答案在模型推薦的得分最高的k個(gè)答案中即判定為準(zhǔn)確。然而,k值大小的選擇存在著矛盾性。Top-1準(zhǔn)確率雖然可以簡化模型的評估,但它與逆合成設(shè)計(jì)的多樣性相違背。在模型訓(xùn)練中,模型推薦了多個(gè)正確路線中的一個(gè),但卻因?yàn)楹臀墨I(xiàn)報(bào)道的 “標(biāo)準(zhǔn)答案” 不一致導(dǎo)致模型被懲罰,無疑會增大模型訓(xùn)練的難度。相反,如果使用太大的k,如Top-10準(zhǔn)確率,又會夸大模型的準(zhǔn)確性。模型預(yù)測的多樣性是另一項(xiàng)重要的評估標(biāo)準(zhǔn)。在不同的應(yīng)用場景,人們需要不同的推薦方案。在時(shí)間緊迫的情況下,一個(gè)創(chuàng)新性很高但不夠?qū)嵱玫暮铣陕肪€可能還不如另一個(gè)平平無奇但可行性高的路線。但是有些時(shí)候人們可能不想設(shè)計(jì)出已被文獻(xiàn)報(bào)道過的合成路徑,希望看到不一樣的推薦。不同的角色對推薦方案的要求也不同。藥物化學(xué)家可能更希望看到具有共同中間體的路線,從而獲得多樣的目標(biāo)分子,但對于每個(gè)分子來說該路線都不是最佳的路線。相反對于過程化學(xué)家來說,他們更希望看到高度趨同的路線,因?yàn)樗麄冃枰诤铣陕肪€之外的地方花更多的精力(如工藝優(yōu)化)。

 

人工智能在藥物合成設(shè)計(jì)中的應(yīng)用

藥物開發(fā)與藥物發(fā)現(xiàn)所期望的不同風(fēng)格的合成路線設(shè)計(jì)

 

條件推薦系統(tǒng)發(fā)展的相對滯后也會對智能藥物合成設(shè)計(jì)造成很大的影響。條件推薦系統(tǒng)的數(shù)據(jù)匱乏,主要原因之一是催化反應(yīng)的數(shù)據(jù)有限。相對于起始材料廣闊的化學(xué)空間,催化劑的化學(xué)空間要小很多,另外,而在藥物合成路線的設(shè)計(jì)中,不必要地使用催化劑是不被允許的,因?yàn)榇呋瘎┖团潴w的合成和表征將額外消耗大量的時(shí)間。因此開發(fā)基于小數(shù)據(jù)集、針對催化劑的機(jī)器學(xué)習(xí)模型也非常有必要。

 

與其他領(lǐng)域的機(jī)器學(xué)習(xí)模型一樣,智能藥物合成設(shè)計(jì)軟件的可解釋性也有待加強(qiáng)。如果軟件可以對自己的預(yù)測進(jìn)行解釋,那無疑可以增加人們對它的信任,可以吸引更多的人來使用這些軟件。同時(shí),模型也需要增強(qiáng)對不確定性的估計(jì)。必要的不確定性分析可以幫助化學(xué)家意識到什么時(shí)候可以完全信任軟件的預(yù)測,而什么時(shí)候應(yīng)該人工介入?yún)⑴c設(shè)計(jì)和評估。

 

展 望

 

所有的智能藥物合成設(shè)計(jì),其最終目標(biāo)都不是替代化學(xué)家,而是減輕化學(xué)家在合成設(shè)計(jì)中的認(rèn)知負(fù)擔(dān),將化學(xué)家從重復(fù)性的、不需要太多智力的勞動中解放出來,使化學(xué)家們可以將精力集中在一些稀有化合物和復(fù)雜反應(yīng)的研究中。即使每個(gè)化學(xué)家只將10%的工作量分給計(jì)算機(jī)去做,也將顯著地節(jié)省總的時(shí)間成本。

 

分享到:

來源:Internet

相關(guān)新聞: