中文字幕一级黄色A级片|免费特级毛片。性欧美日本|偷拍亚洲欧美1级片|成人黄色中文小说网|A级片视频在线观看|老司机网址在线观看|免费一级无码激情黄所|欧美三级片区精品网站999|日韩av超碰日本青青草成人|一区二区亚洲AV婷婷

您當(dāng)前的位置:檢測資訊 > 科研開發(fā)

人工智能在藥物設(shè)計和發(fā)現(xiàn)中的應(yīng)用進展

嘉峪檢測網(wǎng)        2021-09-23 16:47

1前言

 

機器學(xué)習(xí)(Machine Learning,ML)屬于人工智能的子領(lǐng)域,它是研究機器能夠熟練執(zhí)行智能任務(wù)的過程和實用性,而無需為這些任務(wù)明確編程。最近,人工智能系統(tǒng)已經(jīng)接近人類在一些任務(wù)上的表現(xiàn),如游戲和圖像識別,但這些是在非常狹窄和集中的領(lǐng)域。盡管如此,人工智能的各種形式如今已成功地應(yīng)用于大范圍的領(lǐng)域:從機器人、語音翻譯和圖像分析,再到藥物分子設(shè)計的應(yīng)用。

 

藥物發(fā)現(xiàn)中,最好的人工智能不一定是能夠自主設(shè)計一種新藥的單一人工智能,而是一種或多種不同的人工智能,能夠在整個藥物發(fā)現(xiàn)過程中更好地理解和設(shè)計新的輸入,從靶點選擇、命中識別、引導(dǎo)優(yōu)化到臨床前研究,最后到臨床試驗。

 

人工智能在藥物發(fā)現(xiàn)中能起著關(guān)鍵作用,特別是人工神經(jīng)網(wǎng)絡(luò),如深度神經(jīng)網(wǎng)絡(luò)或循環(huán)網(wǎng)絡(luò),驅(qū)動著這一領(lǐng)域的發(fā)展。在性質(zhì)或活性預(yù)測方面的許多應(yīng)用,如物理化學(xué)和ADMET性質(zhì),定量結(jié)構(gòu)-性質(zhì)關(guān)系(QSPR)或定量結(jié)構(gòu)-活性關(guān)系(QSAR)等技術(shù)支撐著這方面的應(yīng)用。人工智能推動生物活性分子朝著期望的特性發(fā)展,結(jié)合合成計劃和易合成的可行性,計算機自動發(fā)現(xiàn)藥物的可能性越來越大。

 

2介紹

 

人工智能包括機器學(xué)習(xí)等技術(shù)是為學(xué)習(xí)和預(yù)測新特性建立的,尤其是人工神經(jīng)網(wǎng)絡(luò),如深度神經(jīng)網(wǎng)絡(luò)(deep neural netwroks, DNNs)或遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural networks, RNNs),推動了人工智能的發(fā)展。

 

自20世紀60年代以來,藥物化學(xué)就開始使用人工智能應(yīng)用于新化合物的設(shè)計,其中有標(biāo)記訓(xùn)練數(shù)據(jù)集的訓(xùn)練模型被廣泛應(yīng)用于分子設(shè)計中。定量構(gòu)效關(guān)系(QSAR)方法廣泛用于預(yù)測化學(xué)結(jié)構(gòu)的性質(zhì),如logp、溶解度和生物活性。相反,不依賴于標(biāo)簽的無監(jiān)督機器學(xué)習(xí)也在醫(yī)學(xué)和化學(xué)中使用,例如層次聚類、算法和主成分分析等用于分析大分子庫。

 

藥物化學(xué)研究中,當(dāng)深度學(xué)習(xí)體系結(jié)構(gòu)在性能預(yù)測方面顯示出好結(jié)果時,新型人工智能技術(shù)受到了廣泛關(guān)注。在Merck Kaggle和NIH Tox21挑戰(zhàn)中,與基礎(chǔ)機器學(xué)習(xí)方法相比,深度神經(jīng)網(wǎng)絡(luò)顯示出更好的預(yù)測性。

 

3人工智能應(yīng)用于化合物屬性預(yù)測

 

在藥物發(fā)現(xiàn)中,臨床候選化合物分子必須滿足一組不同的標(biāo)準。除了對生物靶的有效效力外,該化合物應(yīng)對不針對的靶標(biāo)具有相當(dāng)?shù)倪x擇性,并且具有良好的物理化學(xué)和ADMET特性(吸收、分布、代謝、排泄和毒性特性)。因此,化合物優(yōu)化是一個多維度的挑戰(zhàn)。在多維優(yōu)化過程中,采用了大量的硅預(yù)測方法,特別是一些機器學(xué)習(xí)技術(shù)已經(jīng)被成功應(yīng)用,例如支持向量機器(support vector machines, SVM)、隨機森林(Random Forests, RF)或貝葉斯學(xué)習(xí)。

 

屬性預(yù)測機器學(xué)習(xí)中的一個重要方面是可以訪問大型數(shù)據(jù)集,這是應(yīng)用人工智能的先決條件。在制藥工業(yè)中,化合物優(yōu)化過程中收集了許多不同性質(zhì)的大數(shù)據(jù)集,這種有針對目標(biāo)和反目標(biāo)的大型數(shù)據(jù)集可用于不同的化學(xué)系列,并系統(tǒng)地用于訓(xùn)練機器學(xué)習(xí)模型,以驅(qū)動化合物優(yōu)化。

 

其中一個例子就是對不同激酶活性的預(yù)測。不同激酶項目中的選擇性分析能產(chǎn)生更大的數(shù)據(jù)集,這些數(shù)據(jù)集被系統(tǒng)地用于模型生成。為了對QSAR進行分析,二元貝葉斯QSAR模型是從92種不同激酶上的130000個化合物大數(shù)據(jù)矩陣生成的。這些模型應(yīng)用于新的化合物,以產(chǎn)生親和指紋,用于訓(xùn)練和預(yù)測數(shù)據(jù)點相對較少新激酶生物活性的模型。

 

在公共領(lǐng)域,大型數(shù)據(jù)集可用于推導(dǎo)機器學(xué)習(xí)模型,以預(yù)測跨目標(biāo)活性。這些模型可應(yīng)用于藥物再利用和現(xiàn)有藥物新靶點的確定。使用相似系綜(SEA, Similarity Ensemble Approach)方法證明了化合物再利用的成功應(yīng)用。SEA是一種基于相似性的方法,將每個靶點的配體相互對比,以觀察相似性相對于隨機分布的重要性。

 

在Kaggle競爭的成功刺激下,深度神經(jīng)網(wǎng)絡(luò)被用于許多屬性預(yù)測。深度神經(jīng)網(wǎng)絡(luò)屬于人工神經(jīng)網(wǎng)絡(luò)的一類,它是受大腦啟發(fā)的系統(tǒng),有多個節(jié)點(神經(jīng)元),像大腦中的神經(jīng)元一樣可以相互連接。來自不同節(jié)點的信號被轉(zhuǎn)換并聯(lián)到下一層的神經(jīng)元(圖1)。輸入層和輸出層之間的層稱為隱藏層,在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中,對不同節(jié)點的權(quán)值和偏差進行調(diào)整。與淺層體系結(jié)構(gòu)相比,深度神經(jīng)網(wǎng)絡(luò)使用的隱藏層和節(jié)點數(shù)量要多得多。因此,在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,必須擬合大量的參數(shù)。為了解決過度擬合問題,如退出或使用校正線性單元來解決消失梯度問題,需要增加計算能力和大量算法改進。

 

人工智能在藥物設(shè)計和發(fā)現(xiàn)中的應(yīng)用進展

 

DNNs已用于許多屬性預(yù)測的實例中。與其它機器學(xué)習(xí)方法比較,DNNs具有更好的性能,如在生物活性預(yù)測、ADMET特性和物理化學(xué)參數(shù)。在Kaggle競爭中,與使用二維拓撲描述符的隨機森林方法相比,15個分析中的13個DNN表現(xiàn)出更好的性能。

 

在另一項研究中,使用了ChEMBL的廣泛數(shù)據(jù)集,其中包括超過5000種不同的分析,以及使用擴展連接指紋(ECFP4)近750000種化合物。DNNs表現(xiàn)出優(yōu)于用于比較ROC曲線下面積的其他幾種機器的學(xué)習(xí)方法。

 

Lenselik等對ChEMBL的數(shù)據(jù)集進行了大型基準研究,得出了類似的結(jié)論,即DNN方法的性能更好。在這項研究中,時間驗證被用于性能比較,其中訓(xùn)練和測試數(shù)據(jù)根據(jù)發(fā)布日期進行分割。在時間驗證中,性能度量明顯小于隨機分割方法,這可能更接近真實的預(yù)測。

 

Korotcov等將DNN與其他機器學(xué)習(xí)算法進行比較,得出生物活性、溶解性和ADME特性等不同的端點。在該研究中,使用了功能類別指紋(fcfp6)的指紋。DNN的性能優(yōu)于SVM方法,后者又優(yōu)于其他測試的機器學(xué)習(xí)技術(shù)。

 

深度學(xué)習(xí)也被用于毒性預(yù)測。Tox21競爭的結(jié)果表明,DNN對12個不同的毒性終點具有良好的預(yù)測性。研究表明,DNN能夠提取分子特征,這些特征被認為與已知的毒理成分有關(guān),說明這樣的網(wǎng)絡(luò)似乎可以在不同的隱藏層中學(xué)習(xí)更多抽象的代表物。圖2給出了網(wǎng)絡(luò)檢測到的這些特性的示例。雖然從DNN中衍生出來相關(guān)的結(jié)構(gòu)元素是有希望的,但所示的片段顯然太普通,不適合在毒理學(xué)領(lǐng)域沒有專門知識的情況下用于藥物發(fā)現(xiàn)。此外,訓(xùn)練數(shù)據(jù)集的組成對模型的預(yù)測性和適用性領(lǐng)域以及網(wǎng)絡(luò)學(xué)習(xí)有很大影響。DeepTox管道使用不同模型的集合,但由DNN預(yù)測主導(dǎo),它在12個有毒終點中有9個優(yōu)于其他機器學(xué)習(xí)方法。

 

人工智能在藥物設(shè)計和發(fā)現(xiàn)中的應(yīng)用進展

 

另一個預(yù)測有毒性終點的例子已被用于預(yù)測藥物性肝損傷(DILI)。對475種化合物進行了網(wǎng)絡(luò)學(xué)習(xí),并對198種化合物進行了性能測試。藥物肝毒性預(yù)測具有良好的統(tǒng)計參數(shù),準確率為86.9%,敏感性為82.5%,特異性為92.9%,AUC為0.995。利用PAdel和Mold中的分子描述符,結(jié)合線平分法,利用UG-RNN結(jié)構(gòu)編碼方法得到了分子描述。在UG-RNN方法中,描述符是從捕獲無向圖的化學(xué)結(jié)構(gòu)中推導(dǎo)出來的。重原子表示為節(jié)點,鍵表示邊。該圖被輸入到遞歸神經(jīng)網(wǎng)絡(luò)中(RNNs)(Fig 3)。

 

人工智能在藥物設(shè)計和發(fā)現(xiàn)中的應(yīng)用進展

 

利用神經(jīng)網(wǎng)絡(luò)進行分子結(jié)構(gòu)編碼是化學(xué)信息學(xué)領(lǐng)域的一個新發(fā)展。盡管迄今為止描述的大多數(shù)例子都使用經(jīng)典描述符,但越來越多的神經(jīng)網(wǎng)絡(luò)選擇化學(xué)描述符,其思想是神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)那個最適合的代表性實際問題。

 

圖卷積(Graph Convolutional Models)模型源自圓形指紋的概念。信息是通過添加來自遠距離原子的信息,它們是沿著一定的鍵距離生長而得到的。這些迭代是對每個原子進行的,最后合并成一個固定長度的向量,這個向量進入一個神經(jīng)網(wǎng)絡(luò)進行屬性預(yù)測。在圖卷積模型中,分子描述層是可微網(wǎng)絡(luò)的一部分(圖3)。

 

QSAR和機器學(xué)習(xí)模型盡管可以使用多個端點,但通常針對一個端點進行訓(xùn)練。DNNs提供了將多個端點的預(yù)測系統(tǒng)并結(jié)合多任務(wù)學(xué)習(xí)的可能性。多任務(wù)學(xué)習(xí)可以提高預(yù)測質(zhì)量,這一點已被多項研究所證實。

 

被觀察到關(guān)于最佳性能的結(jié)論依賴于時間或隨機分裂類型的驗證,僅僅添加大量的數(shù)據(jù)并不能保證對預(yù)測性產(chǎn)生積極的影響。雖然多任務(wù)學(xué)習(xí)似乎對各種不同的數(shù)據(jù)集有有益的影響,但也有一些端點的預(yù)測性下降。研究表明在多任務(wù)學(xué)習(xí)中,一些信息是從其他端點“借用”來的,從而改善預(yù)測。當(dāng)一個終點訓(xùn)練數(shù)據(jù)中的化合物與第二個終點的測試數(shù)據(jù)中化合物相似時,可以觀察到一個改進的r2,并且活性是相關(guān)的(正的或負的)。如果活性不相關(guān),則觀察到r2下降的趨勢。如果兩個端點之間的分子彼此不同,多任務(wù)學(xué)習(xí)不會對r2產(chǎn)生顯著影響。

 

 Bajorath等人使用一組大約100000種化合物,針對53個不同的靶標(biāo)開發(fā)了一個模型預(yù)測小組??傮w而言,它實現(xiàn)了良好的預(yù)測性。有趣的是,DNNs和其他機器學(xué)習(xí)技術(shù)之間的比較并沒有產(chǎn)生深度學(xué)習(xí)方法的任何優(yōu)越性。

 

深度學(xué)習(xí)已經(jīng)被廣泛地驗證為許多不同的數(shù)據(jù)集和學(xué)習(xí)任務(wù)。在許多比較中,與成熟的機器學(xué)習(xí)技術(shù)相比,DNNs顯示出了優(yōu)越性。最近,大規(guī)模不同方法的比較也證明了這一點,其中,DNNs的性能被描述為與體外試驗相當(dāng)。然而,許多研究都是回顧性地進行以證明深度學(xué)習(xí)體系結(jié)構(gòu)在性能預(yù)測中的適用性,通常使用像ChEMBL這樣的公共數(shù)據(jù)集建立的機器學(xué)習(xí)算法進行比較。在ChEMBL中,生物數(shù)據(jù)通常只對一個靶標(biāo)可用,從而形成稀疏的矩陣,使得跨目標(biāo)學(xué)習(xí)成為一個重大挑戰(zhàn)。因此,DNNs明顯優(yōu)于其他機器學(xué)習(xí)方法,特別是對許多其他機器學(xué)習(xí)方法,訓(xùn)練和參數(shù)優(yōu)化的要求較低。

 

4人工智能應(yīng)用于新化合物分子設(shè)計

 

在沒有參考化合物時,從頭設(shè)計開發(fā)新的活性分子需要約25年。由于人工智能領(lǐng)域的發(fā)展,從頭設(shè)計化合物最近出現(xiàn)有一些新的進展。一種有趣的方法是變分自動編碼器(圖4),它由兩個神經(jīng)網(wǎng)絡(luò)、編碼器網(wǎng)絡(luò)和解碼器網(wǎng)絡(luò)組成。編碼器網(wǎng)絡(luò)將由SMILES表示定義的化學(xué)結(jié)構(gòu)轉(zhuǎn)換為一個實值連續(xù)向量作為潛在空間。解碼器能將來自該潛在空間的矢量轉(zhuǎn)換為化學(xué)結(jié)構(gòu)。

 

這一特性被用于尋找潛在空間的最優(yōu)解決方案,并通過解碼網(wǎng)絡(luò)將這些向量反向轉(zhuǎn)化為真實分子結(jié)構(gòu)。對于大多數(shù)反編譯,一個分子占主導(dǎo)地位,但存在細微的結(jié)構(gòu)修改的可能性較小。使用潛在空間代表來訓(xùn)練基于QED藥物相似性評分和合成可及性評分SAS的模型。可以得到一條具有改進目標(biāo)性質(zhì)的分子路徑。在另一份文章中,將這種變分自動編碼器的性能與對抗性自動編碼器進行了比較。對抗式自動編碼器由產(chǎn)生新型化學(xué)結(jié)構(gòu)的生成模型組成。

 

第二個識別性的對抗模型被訓(xùn)練來區(qū)分真實分子和生成分子,而生成模型試圖欺騙識別性分子。在生成模式下,對抗式自動編碼器比變分式自動編碼器產(chǎn)生的結(jié)構(gòu)更為有效。結(jié)合硅片模型,可以得到新的結(jié)構(gòu),預(yù)測對多巴胺受體2型有活性。

 

人工智能在藥物設(shè)計和發(fā)現(xiàn)中的應(yīng)用進展

 

遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)已成功地應(yīng)用于化合物新設(shè)計中。最初,它們是在自然語言處理領(lǐng)域建立的。RNN以順序信息作為輸入,由于SMILES字符串以字母序列編碼化學(xué)結(jié)構(gòu),RNNs已被用于生成化學(xué)結(jié)構(gòu)。為了訓(xùn)練神經(jīng)網(wǎng)絡(luò)SMILES字符串的語法,RNNs接受了從現(xiàn)有的化合物集合中提取的一大組化合物的訓(xùn)練,如ChEMBL或商用化合物。研究表明,RNNs能夠產(chǎn)生大量有效的SMILES字符串。同樣的方法也成功地用于新的肽結(jié)構(gòu)的生成。強化學(xué)習(xí)模式成功地應(yīng)用于使生成的化合物偏向所需的性質(zhì)。

 

轉(zhuǎn)移學(xué)習(xí)被用作為另一種策略來生成具有所需生物活性的新化學(xué)結(jié)構(gòu)。第一步,網(wǎng)絡(luò)被用來訓(xùn)練成一個擁有大的訓(xùn)練集來學(xué)習(xí)SMILES語法。第二步,繼續(xù)使用具有所需活性的化合物進行訓(xùn)練。此外,很少有在訓(xùn)練階段產(chǎn)生的新化合物能偏向于被活性分子占據(jù)的化學(xué)空間。

 

5人工智能應(yīng)用于化合物分子合成計劃

 

有機合成是小分子藥物發(fā)現(xiàn)計劃的關(guān)鍵階段。新的分子被合成,以沿著化合物優(yōu)化路徑前進,并識別具有改進的分子。在某些情況下,合成挑戰(zhàn)限制了設(shè)計分子可被利用的空間。因此,合成計劃是藥物發(fā)現(xiàn)的關(guān)鍵步驟。開發(fā)了許多計算方法來協(xié)助合成計劃,有幾個方面:用一組給定的先導(dǎo)化合物預(yù)測一個反應(yīng)的結(jié)果,預(yù)測一個化學(xué)反應(yīng)的產(chǎn)量以及逆向合成計劃。逆向合成計劃主要由基于知識的系統(tǒng)控制,這些系統(tǒng)基于專家派生的規(guī)則或自動從反應(yīng)數(shù)據(jù)庫中提取的規(guī)則。

 

近年來,已有許多基于機器學(xué)習(xí)的前向合成預(yù)測方法。前向合成預(yù)測提供了逆向合成分析的合成路線排序。在一種方法中,量子化學(xué)描述符與人工編碼規(guī)則和機器學(xué)習(xí)相結(jié)合,以預(yù)測反應(yīng)及其產(chǎn)物。該方法最近被擴展到預(yù)測多步反應(yīng)。在另一種方法中,用從Reaxys中提取的數(shù)百萬個反應(yīng)訓(xùn)練了一個深度神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)表現(xiàn)優(yōu)于用于比較的專家系統(tǒng)。對于自動導(dǎo)出的8720個模板規(guī)則的反應(yīng),報告有78%準確度。

 

人工智能也用于逆向合成分析。劉等使用了一個基于序列到序列的逆合成反應(yīng)預(yù)測模型。反應(yīng)物和產(chǎn)物由RNNs的SMILES字符串編碼,并在編碼器-解碼器體系結(jié)構(gòu)中相互耦合。該訓(xùn)練集涵蓋了10種廣泛的反應(yīng)類型,如C-C鍵形成、還原、氧化、雜原子烷基化等,包括來自美國專利文獻的50000個反應(yīng)。該技術(shù)的總體性能與基于規(guī)則的專家系統(tǒng)相當(dāng),但在不同的反應(yīng)類別上觀察到了很大的差異。在不同的方法中,推薦系統(tǒng)被用來識別生成期望產(chǎn)物的反應(yīng)物。然而在驗證中獲得的AUCs表明該系統(tǒng)需要進一步改進。

 

三個深度神經(jīng)網(wǎng)絡(luò)與蒙特卡羅樹搜索相結(jié)合,用于逆向合成預(yù)測,取得了良好的性能。從整個Reaxys數(shù)據(jù)庫中提取訓(xùn)練和測試數(shù)據(jù)集,并及時進行分割。對于2015年后合成的497種不同分子的試驗,提出了超過80%的正確合成路線。

 

6結(jié)論與展望

 

人工智能近年來備受關(guān)注,并已成功進入藥物發(fā)現(xiàn)領(lǐng)域。許多機器學(xué)習(xí)方法,如QSAR方法、SVMs或隨機森林法,都是藥物發(fā)現(xiàn)過程中建立起來的。基于神經(jīng)網(wǎng)絡(luò)的新算法,如深度神經(jīng)網(wǎng)絡(luò),為屬性預(yù)測提供了進一步的改進,這在許多比較深學(xué)習(xí)與經(jīng)典機器學(xué)習(xí)的基準研究中已經(jīng)顯現(xiàn)出來。這些新算法在許多不同應(yīng)用中的適用性已經(jīng)得到證明,包括物理化學(xué)性質(zhì)、生物活性和毒性等。

 

多任務(wù)學(xué)習(xí)的一些好處也得到了證明,其中相關(guān)屬性的預(yù)測受益于聯(lián)合學(xué)習(xí)。未來的改進可以通過學(xué)習(xí)一種適應(yīng)當(dāng)前化學(xué)的代表性問題來實現(xiàn)。首先,我們已經(jīng)努力從這些問題中識別相關(guān)的化學(xué)特征,也指出了這些算法的一個主要挑戰(zhàn),即它們的“黑匣子”特征。從深層神經(jīng)網(wǎng)絡(luò)中提取某些化合物是非常困難的,如果人工智能越來越多地引導(dǎo)合成這些資源,這就變得很相關(guān)了。

 

人工智能在藥物發(fā)現(xiàn)中的應(yīng)用得益于開源實現(xiàn),它提供了對軟件庫的訪問,允許實現(xiàn)復(fù)雜的神經(jīng)網(wǎng)絡(luò)。因此,像TensorFlow或Keras這樣的開放源碼庫經(jīng)常被用于在藥物發(fā)現(xiàn)中實現(xiàn)不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。此外,Deepchem庫提供了一個圍繞TensorFlow的包裝器,它簡化了化學(xué)結(jié)構(gòu)的處理。

 

近年來,人工智能系統(tǒng)的應(yīng)用范圍大大擴大,包括從頭設(shè)計或逆合成分析,預(yù)示我們將在有大型數(shù)據(jù)集可用的領(lǐng)域看到越來越多的應(yīng)用。隨著在這些不同領(lǐng)域的進展,我們可以預(yù)料到越來越多的計算機將用于自動藥物發(fā)現(xiàn)。尤其是機器人技術(shù)的巨大進步將加速這一進展。然而,人工智能還遠未達到完美。具有良好理論背景的其他技術(shù)仍然很重要。特別是,由于它們受益于計算能力的提高,因此可以用更精確的方法模擬更大的系統(tǒng)。

 

參考文獻:

 

1. Artificial Intelligence in Drug Design,Molecules: 2018, 23. Gerhard Hessler, and Karl-Heinz Baringhaus.

2. Artificial intelligence in drug discovery, Future Medicinal Chemistry: 2018,0212. Matthew A Sellwood, Mohamed Ahmed, Marwin HS Segler & Nathan Brown.

 

分享到:

來源:Internet

相關(guān)新聞: