中文字幕一级黄色A级片|免费特级毛片。性欧美日本|偷拍亚洲欧美1级片|成人黄色中文小说网|A级片视频在线观看|老司机网址在线观看|免费一级无码激情黄所|欧美三级片区精品网站999|日韩av超碰日本青青草成人|一区二区亚洲AV婷婷

您當(dāng)前的位置:檢測資訊 > 科研開發(fā)

病原宏基因組高通量測序生物信息學(xué)分析質(zhì)量評(píng)價(jià)的研究現(xiàn)狀與思考

嘉峪檢測網(wǎng)        2024-06-16 11:33

摘  要

 

病原宏基因組高通量測序(mNGS)技術(shù)已成為感染病原學(xué)診斷的新工具,由實(shí)驗(yàn)操作(濕實(shí)驗(yàn))和生物信息學(xué)分析(干實(shí)驗(yàn))兩部分組成。干實(shí)驗(yàn)由算法和數(shù)據(jù)庫構(gòu)成,其功能是對(duì)濕實(shí)驗(yàn)產(chǎn)生的測序數(shù)據(jù)進(jìn)行分析處理后輸出檢測結(jié)果。干實(shí)驗(yàn)的性能受到測序數(shù)據(jù)中復(fù)雜多變的干擾因素的影響,包括臨床樣本中大量的人源核酸、試劑與耗材攜帶的微生物核酸、采樣與濕實(shí)驗(yàn)引入的環(huán)境微生物核酸、數(shù)據(jù)庫中基因組質(zhì)量不均一或不同物種基因組之間的相似性過高導(dǎo)致的錯(cuò)誤比對(duì)與注釋,以及算法與參數(shù)差異對(duì)分類鑒定的影響等。上述干擾因素可能來自mNGS 檢測各個(gè)環(huán)節(jié),不僅可能導(dǎo)致干實(shí)驗(yàn)輸出錯(cuò)誤的物種鑒定和微生物檢測結(jié)果,也給干實(shí)驗(yàn)的質(zhì)量控制與評(píng)價(jià)帶來較大挑戰(zhàn)。本文綜述了mNGS 干實(shí)驗(yàn)質(zhì)量控制的關(guān)鍵問題以及關(guān)于質(zhì)量評(píng)價(jià)方法的思考。

 

關(guān)鍵詞

 

病原宏基因組高通量測序;生物信息學(xué)分析;質(zhì)量評(píng)價(jià);數(shù)字參考品

 

metagenomic next-generation sequencing; bioinformatics analyses; quality evaluation; digital reference panel

 

感染性疾病對(duì)人類健康構(gòu)成重大威脅, 其病原體呈現(xiàn)多樣化和復(fù)雜化的發(fā)展趨勢(shì)。近年來, 病原宏基因組高通量測序(metagenomic next-generation sequencing ,mNGS)技術(shù)迅速發(fā)展和普及,通過對(duì)待測樣本總核酸進(jìn)行測序分析,理論上能“無偏倚”地檢出樣本中全部潛在病原體,包括病毒、細(xì)菌、真菌和寄生蟲[1]。mNGS 技術(shù)因其無需培養(yǎng)、不依賴于已知核酸序列、無需特殊核酸探針,以及能夠快速獲得病原體核酸序列信息等優(yōu)勢(shì),打破了傳統(tǒng)微生物檢驗(yàn)的局限。

 

2014 年, 美國學(xué)者應(yīng)用mNGS 技術(shù)診斷了一例常規(guī)病原檢測方法未能確診的神經(jīng)系統(tǒng)鉤端螺旋體感染病例[2],首次證明mNGS 技術(shù)在臨床疑難微生物鑒定領(lǐng)域的應(yīng)用前景。隨著mNGS技術(shù)社會(huì)經(jīng)濟(jì)成本不斷降低和技術(shù)發(fā)展的不斷成熟,已逐漸從科研走向臨床[3-4],成為疑難感染和未知病原微生物檢驗(yàn)的重要手段。然而,mNGS 相較傳統(tǒng)分子檢測方法更為復(fù)雜,包括實(shí)驗(yàn)操作(濕實(shí)驗(yàn))和生物信息學(xué)分析(干實(shí)驗(yàn))兩部分。因此,對(duì)mNGS 檢測流程進(jìn)行質(zhì)量控制與評(píng)價(jià)是一項(xiàng)跨學(xué)科的系統(tǒng)工程。目前,已有多個(gè)研究和綜述詳述mNGS 濕實(shí)驗(yàn)的各個(gè)質(zhì)量控制關(guān)鍵因素[5-7],但對(duì)于干實(shí)驗(yàn)的影響因素、質(zhì)量控制環(huán)節(jié)及評(píng)價(jià)方法等,仍缺少系統(tǒng)且詳盡的參考信息。

 

本文從mNGS 干實(shí)驗(yàn)質(zhì)量控制的角度綜述了該技術(shù)的研究現(xiàn)狀,以及關(guān)于其性能驗(yàn)證和質(zhì)量評(píng)價(jià)方法的思考。

 

1、 mNGS 干實(shí)驗(yàn)流程

 

mNGS 檢測分為濕實(shí)驗(yàn)和干實(shí)驗(yàn)兩部分(圖1)。濕實(shí)驗(yàn)包括樣品前處理(如液化、離心/ 去宿主、破壁等)、核酸提取與前處理(如DNA 和RNA 提取、反轉(zhuǎn)錄等)、文庫制備和上機(jī)測序環(huán)節(jié)。對(duì)測序產(chǎn)生的測序數(shù)據(jù)進(jìn)行分析和報(bào)告,即為干實(shí)驗(yàn),包括但不限于數(shù)據(jù)質(zhì)量控制、人源序列過濾及物種鑒定等過程[8]。濕實(shí)驗(yàn)和干實(shí)驗(yàn)構(gòu)成mNGS 的串聯(lián)檢測結(jié)構(gòu),任一步產(chǎn)生的錯(cuò)誤或誤差都將被傳遞或放大[9]。而干實(shí)驗(yàn)位于檢測流程末端,需要處理上游各個(gè)環(huán)節(jié)引入的潛在干擾因素,因此必須合理地處理各項(xiàng)干擾的影響,才能準(zhǔn)確地進(jìn)行物種鑒定和檢測指標(biāo)的輸出, 再經(jīng)過與陽性判斷值比較后輸出最終檢測結(jié)果。

 

 

干實(shí)驗(yàn)第一步需要去除測序過程中由于文庫質(zhì)量或測序原理導(dǎo)致的測序錯(cuò)誤, 包括低質(zhì)量、低復(fù)雜度及接頭污染等序列,常用軟件包括SOAPnuke、Trimmomatic 或Fastp 等[10-12];第二步需要去除臨床樣本中占比極高的人源核酸序列,需要將經(jīng)第一步處理得到的測序數(shù)據(jù),用比對(duì)軟件與人基因組數(shù)據(jù)庫進(jìn)行比對(duì)去除(圖2)。目前常用的比對(duì)軟件包括Bowtie、Bowtie2、BWA 等[13-14],常用的人基因組包括Hg19、GRCH38 和YH2.0,以及由國際科學(xué)團(tuán)隊(duì)端粒到端粒聯(lián)盟(Telomere-to-Telomere,T2T)于2022 年發(fā)布的完整無間隙的人基因組T2T-CHM13[15]。

人源核酸序列去除后是微生物鑒定, 也是干實(shí)驗(yàn)的核心環(huán)節(jié),包括兩個(gè)關(guān)鍵因素:微生物基因組數(shù)據(jù)庫與比對(duì)鑒定算法(圖2)。①對(duì)于數(shù)據(jù)庫,目前尚無統(tǒng)一建立標(biāo)準(zhǔn)或數(shù)據(jù)收錄規(guī)范。我國常用的公共數(shù)據(jù)源,如由美國國家生物技術(shù)信息中心(National Center for Biotechnology Information, NCBI) 建立的GenBank 數(shù)據(jù)庫, 存在數(shù)據(jù)冗余、基因組質(zhì)量參差不齊以及物種分類錯(cuò)誤等較多問題。以公共數(shù)據(jù)源為基礎(chǔ)的不同的微生物基因組數(shù)據(jù)庫,理論上的微生物鑒定范圍可能差異極大,包括收錄的物種數(shù)量和基因組序列數(shù)量。②對(duì)于比對(duì)鑒定算法,則有更多可選組合和參數(shù),如以BLAST、SNAP 和BWA 為代表的基于alignment 算法的軟件[16-17],以Kraken 和Kaiju 為代表的基于k-mer 算法的軟件[18-19], 還有以MetaPhlAn3 為代表的基于marker 基因比對(duì)算法的軟件[20]。這些基于不同算法的軟件,運(yùn)行時(shí)選擇合適的運(yùn)行參數(shù)以獲得更優(yōu)的分析結(jié)果。

 

微生物鑒定后,需要與病原體陽性判斷值進(jìn)行比對(duì)后輸出檢測報(bào)告。對(duì)于不同的mNGS 檢測試劑,其陽性判斷值(指標(biāo)和閾值)都不一樣,不同的檢測指標(biāo)可能是測序序列數(shù)、每百萬序列數(shù)或相對(duì)豐度等。目前,陽性判斷值不固定是影響mNGS 檢測性能的重要因素。部分開發(fā)者和使用者可能選擇在陽性判斷值比對(duì)環(huán)節(jié),引入臨床信息數(shù)據(jù)庫或環(huán)境背景菌數(shù)據(jù)庫等動(dòng)態(tài)因素,以期提高“信噪比”或準(zhǔn)確性,但往往會(huì)降低mNGS 檢測的可靠性。

 

對(duì)于某一種mNGS 檢測試劑,其病原體陽性判斷值應(yīng)該明確且固定:在陽性判斷值研究和驗(yàn)證前,應(yīng)先固定mNGS 的整體檢測流程;在研究過程中,可以使用不同批次試劑和耗材以及不同來源的樣本,在不同的實(shí)驗(yàn)室進(jìn)行研究,這樣能更好地評(píng)估試劑和耗材攜帶的微生物核酸、環(huán)境微生物核酸以及干實(shí)驗(yàn)的潛在錯(cuò)誤因素等影響。所使用的樣本,應(yīng)選用可靠的比對(duì)方法確定相關(guān)病原的陰陽性,包括分子生物學(xué)方法(如Sanger 測序法等)、傳統(tǒng)的微生物鑒定方法(如微生物培養(yǎng)法等)或已獲批的試劑盒等,必要時(shí)結(jié)合臨床診斷進(jìn)行確認(rèn)。

 

由上可見,mNGS 干實(shí)驗(yàn)的環(huán)節(jié)和參數(shù)繁多,作用關(guān)鍵且標(biāo)準(zhǔn)不一。相較濕實(shí)驗(yàn),干實(shí)驗(yàn)被視為“黑匣子”。因此,現(xiàn)階段應(yīng)關(guān)注干實(shí)驗(yàn)的質(zhì)量控制與評(píng)價(jià)方法。

 

2、 mNGS 干實(shí)驗(yàn)質(zhì)量評(píng)價(jià)研究現(xiàn)狀

 

目前,已有研究團(tuán)隊(duì)使用虛擬數(shù)據(jù)對(duì)mNGS 干實(shí)驗(yàn)相關(guān)的軟件工具進(jìn)行了基準(zhǔn)測試研究[21]。其中,Sun 等[22] 針對(duì)病毒、細(xì)菌與真菌基因組差異(如核酸可獲得性、核酸分子數(shù)量及基因組大小等)使用虛擬數(shù)據(jù)測試多種軟件的物種定量準(zhǔn)確性,發(fā)現(xiàn)物種基因組越小,其定量準(zhǔn)確性越差。Mcintyre 等[23] 通過廣義線性模型對(duì)多種軟件的結(jié)果進(jìn)行分析,發(fā)現(xiàn)樣本中物種的數(shù)量與假陽性結(jié)果之間沒有顯著關(guān)聯(lián),但測序序列數(shù)的增加可能會(huì)導(dǎo)致基于k-mer 算法的軟件出現(xiàn)假陽性風(fēng)險(xiǎn)。美國博德研究所總結(jié)了用于干實(shí)驗(yàn)性能驗(yàn)證的指標(biāo)與計(jì)算方法,發(fā)現(xiàn)基因組數(shù)據(jù)庫是影響軟件性能的主要因素[24]。

 

mNGS 干實(shí)驗(yàn)本質(zhì)上是一種分類問題的數(shù)學(xué)模型,因此關(guān)于干實(shí)驗(yàn)相關(guān)軟件的基準(zhǔn)測試大多圍繞分類準(zhǔn)確性、運(yùn)行速度和算力以及魯棒性三方面展開研究。

 

在分類準(zhǔn)確性評(píng)價(jià)方面,常使用混淆矩陣評(píng)判分類模型的查準(zhǔn)- 查全性?;煜仃囀菣C(jī)器學(xué)習(xí)中總結(jié)模型預(yù)測結(jié)果的情形分析表,以矩陣形式將數(shù)據(jù)集中的記錄,按照真實(shí)的類別與模型預(yù)測的類別判斷兩個(gè)標(biāo)準(zhǔn)進(jìn)行匯總,多用于判斷分類器的優(yōu)劣。應(yīng)用混淆矩陣,研究人員可以統(tǒng)計(jì)四個(gè)基礎(chǔ)指標(biāo):真陽性表示正確準(zhǔn)入的樣本數(shù),假陽性一類錯(cuò)誤表示誤報(bào)的樣本數(shù),假陰性二類錯(cuò)誤表示漏報(bào)的樣本數(shù),真陰性表示正確拒絕的樣本數(shù)。混淆矩陣還用于統(tǒng)計(jì)召回率、精確率、特異度及準(zhǔn)確率等常見二級(jí)指標(biāo)。

 

此外,軟件的運(yùn)行參數(shù),即過濾條件會(huì)顯著影響查準(zhǔn)- 查全性。經(jīng)過優(yōu)化和驗(yàn)證的mNGS干實(shí)驗(yàn), 應(yīng)能夠?yàn)槊糠N微生物設(shè)置實(shí)現(xiàn)最佳分類準(zhǔn)確性的運(yùn)行參數(shù)。研究人員可以統(tǒng)計(jì)分析相關(guān)物種的ROC 曲線下面積(area under curve,AUC) 或P-R 曲線下面積(area under the precision-recall curve,AUPR)的平均數(shù)或中位數(shù),以及使用箱型圖對(duì)相關(guān)物種的AUC或AUPR 進(jìn)行展示,作為分類準(zhǔn)確性評(píng)價(jià)的依據(jù)。

 

在運(yùn)行速度和算力以及魯棒性評(píng)價(jià)方面,目前沒有統(tǒng)一的標(biāo)準(zhǔn),會(huì)兼顧時(shí)間成本與硬件成本之間的平衡。更好的硬件條件可以一定程度上提升運(yùn)行速度,然而一般而言,在合理的時(shí)間范圍內(nèi)以及合理的硬件條件下,能順利完成分析任務(wù)即可。

 

值得注意的是,以往mNGS干實(shí)驗(yàn)基準(zhǔn)測試研究,大多聚焦于對(duì)比不同分類器對(duì)于不同物種間的分類水平的性能差異,較少針對(duì)mNGS 干實(shí)驗(yàn)在臨床感染診斷場景的實(shí)際情況,以及遇到的具體問題和挑戰(zhàn)開展深入研究[25]。

 

3、 mNGS 干實(shí)驗(yàn)質(zhì)量評(píng)價(jià)方法思考

 

mNGS 干實(shí)驗(yàn)的質(zhì)量評(píng)價(jià)方法應(yīng)包含兩個(gè)重要評(píng)價(jià)工具,即可溯源的數(shù)字參考品和高質(zhì)量的基因組數(shù)據(jù)庫。數(shù)字參考品來源可分為三種:①經(jīng)過驗(yàn)證的臨床樣本的測序數(shù)據(jù)集;②模擬臨床樣本且經(jīng)過精確定量的參考品或標(biāo)準(zhǔn)品的測序數(shù)據(jù)集;③按照預(yù)設(shè)微生物豐度,從目標(biāo)基因組中應(yīng)用軟件抽取序列或生成序列組成的虛擬數(shù)據(jù)集( 表1)[26]。Rong 等[27] 基于生成對(duì)抗網(wǎng)絡(luò)開發(fā)了一種能夠?qū)W習(xí)真實(shí)樣本并生成高度擬真的微生物豐度圖譜的技術(shù)。應(yīng)用該技術(shù), 結(jié)合CAMISIM 軟件[28] 從基因組序列中能夠自動(dòng)根據(jù)豐度圖譜生成原始測序數(shù)據(jù),作為數(shù)字參考品重要的候選來源。這種生成式虛擬數(shù)據(jù)集,不僅能夠最大程度地模擬真實(shí)臨床樣本的核酸特征,減小來自mNGS 濕實(shí)驗(yàn)的偏倚,同時(shí)還具有良好的可控性與隨機(jī)性,適合于根據(jù)不同質(zhì)量評(píng)價(jià)目的進(jìn)行大規(guī)模生產(chǎn)和多批次制備。

基因組數(shù)據(jù)庫可分為:①人基因組數(shù)據(jù)庫,作用是去除人源核酸序列;②微生物基因組數(shù)據(jù)庫,包含各類微生物參考基因組,作用是物種比對(duì)鑒定;③污染微生物數(shù)據(jù)庫,包含試劑和耗材攜帶的、采樣以及濕實(shí)驗(yàn)引入的微生物;④功能基因數(shù)據(jù)庫,一般是耐藥基因與毒力因子數(shù)據(jù)庫。其中,人基因組數(shù)據(jù)庫和微生物基因組數(shù)據(jù)庫是實(shí)現(xiàn)mNGS 干實(shí)驗(yàn)功能的基礎(chǔ),而微生物基因組數(shù)據(jù)庫對(duì)干實(shí)驗(yàn)性能的影響更為重要[29-32]。

 

一般地,mNGS 干實(shí)驗(yàn)并不只使用一個(gè)軟件進(jìn)行分析,而是多個(gè)軟件與基因組數(shù)據(jù)庫的搭配組合,再通過不同運(yùn)行參數(shù)的設(shè)置形成一套完整的分析流程,如SURPI、 MegaPath 等[33-34]。在對(duì)不同mNGS 干實(shí)驗(yàn)進(jìn)行評(píng)價(jià)時(shí),不僅需要使用相同的數(shù)字參考品,還應(yīng)使用同一個(gè)高質(zhì)量的微生物基因組數(shù)據(jù)庫作為評(píng)價(jià)結(jié)果的參考基準(zhǔn),以保證評(píng)價(jià)結(jié)果的橫向可比性。在此基礎(chǔ)上,盡量從測序序列數(shù)、物種鑒定及結(jié)果報(bào)告等多維度對(duì)mNGS 干實(shí)驗(yàn)的假陽性和假陰性進(jìn)行深入分析。

 

3.1 近源微生物同源干擾對(duì)干實(shí)驗(yàn)性能的影響

 

同源干擾是產(chǎn)生假陽性主要影響因素之一。在臨床應(yīng)用場景下,常出現(xiàn)與某種微生物的豐度過高,從而導(dǎo)致與其基因組高度同源的臨床感染相關(guān)病原體被錯(cuò)誤鑒定或過高鑒定測序序列數(shù),造成假陽性結(jié)果。此類問題的原因是某些微生物基因組序列上存在高度相似的區(qū)段,導(dǎo)致軟件進(jìn)行測序序列比對(duì)時(shí)無法區(qū)分或鑒定錯(cuò)誤。研究人員可以針對(duì)同源干擾的特殊場景設(shè)置相應(yīng)數(shù)字參考品,對(duì)mNGS 干實(shí)驗(yàn)同源干擾性能進(jìn)行評(píng)價(jià),并驗(yàn)證優(yōu)化方案,包括引入基因組覆蓋度指標(biāo)、構(gòu)建泛基因組或者比較k-mer 特征等方式。

 

3.2 微生物種類與參考基因組質(zhì)量對(duì)干實(shí)驗(yàn)性能的影響

 

不同種類的微生物,如細(xì)菌、真菌、病毒和寄生蟲等,在基因組大小、遺傳信息復(fù)雜度和染色體倍性等方面都存在較大差異。同時(shí),不同種類的微生物在世界范圍內(nèi)的研究程度也不盡相同,導(dǎo)致微生物參考基因組數(shù)據(jù)庫的組成、數(shù)量及分布差異明顯,例如某些微生物被收錄的參考基因組序列可達(dá)上萬種不同株系,而有些微生物甚至一個(gè)完整的參考基因組序列都未收錄。構(gòu)建微生物基因組數(shù)據(jù)庫時(shí),參考基因組的選擇對(duì)于干實(shí)驗(yàn)的分析結(jié)果有重要潛在影響。因此,研究人員開展基準(zhǔn)測試時(shí),在對(duì)總體性能進(jìn)行評(píng)價(jià)和研究之外,還可嘗試按不同微生物種類對(duì)數(shù)據(jù)進(jìn)行分類統(tǒng)計(jì)和分析,以便更細(xì)致地分析算法軟件與運(yùn)行參數(shù)的優(yōu)劣。

 

3.3 算法軟件與運(yùn)行參數(shù)對(duì)干實(shí)驗(yàn)性能的影響

 

算法軟件與運(yùn)行參數(shù)直接影響測序序列數(shù)層面的分類鑒定性能。通過使用相同的數(shù)字參考品,可以評(píng)價(jià)并橫向比較不同算法軟件與運(yùn)行參數(shù)的召回率、精確率和F1 分?jǐn)?shù),從而分析不同組合的分類鑒定性能。由于單一測試條件難以準(zhǔn)確反映分類模型的實(shí)際性能,因此可以對(duì)相同的算法軟件在不同運(yùn)行參數(shù)條件下進(jìn)行評(píng)價(jià),并通過計(jì)算AUC 或AUPR,比較分析該算法軟件最適合的運(yùn)行參數(shù)。一般地,AUC或AUPR 分?jǐn)?shù)越高,表明該分類模型的性能越好、分類效果越明顯且閾值容錯(cuò)度越高。

 

3.4 樣本復(fù)雜度對(duì)干實(shí)驗(yàn)性能的影響

 

臨床樣本具有高度復(fù)雜性。對(duì)于同一感染者,不同類型樣本(如呼吸道樣本、腦脊液樣本或血液樣本等)的核酸特征,包括人源核酸占比、病原微生物豐度及污染微生物豐度等差異較大;對(duì)于不同感染者,由于個(gè)體差異,往往具有相似或相同臨床癥狀,但樣本內(nèi)的病原微生物豐度也可能完全不同。在處理健康者與感染者、健康者與健康者以及感染者與感染者等樣本多樣性和復(fù)雜性時(shí),算法軟件既要能夠準(zhǔn)確區(qū)分,又要保持合理的“惰性”,以保證干實(shí)驗(yàn)性能的穩(wěn)定性。在對(duì)干實(shí)驗(yàn)進(jìn)行基準(zhǔn)測試時(shí),使用臨床樣本來源和生成式數(shù)字參考品,能夠真實(shí)還原并最大程度豐富臨床樣本的多樣性和復(fù)雜性,從而保證評(píng)價(jià)結(jié)果的科學(xué)性。

 

4、 結(jié)語

 

當(dāng)前,mNGS 技術(shù)仍在不斷完善與發(fā)展,臨床普及程度增速穩(wěn)定,科學(xué)地對(duì)其性能與質(zhì)量進(jìn)行評(píng)價(jià)是保證其臨床使用效果的基礎(chǔ)。mNGS 濕實(shí)驗(yàn)和干實(shí)驗(yàn)既相對(duì)獨(dú)立,又共同決定著mNGS檢測性能。盡管前期已有多項(xiàng)關(guān)于mNGS 的質(zhì)量評(píng)價(jià)研究報(bào)道,但多側(cè)重于濕實(shí)驗(yàn)及整體檢測流程,鮮有關(guān)于干實(shí)驗(yàn)流程獨(dú)立深入的研究。本文對(duì)mNGS 干實(shí)驗(yàn)質(zhì)量控制和性能驗(yàn)證的關(guān)鍵問題進(jìn)行梳理,并詳述關(guān)于質(zhì)量評(píng)價(jià)方法的思考。后續(xù),將應(yīng)用數(shù)字參考品和病原微生物基因組數(shù)據(jù)庫等質(zhì)量評(píng)價(jià)工具,針對(duì)mNGS臨床場景下的技術(shù)要求和具體問題,開展mNGS 干實(shí)驗(yàn)的基準(zhǔn)測試研究,以期進(jìn)一步完善mNGS技術(shù)的質(zhì)量評(píng)價(jià)體系,助力相關(guān)產(chǎn)品的規(guī)范發(fā)展和推廣。

 

 

 
分享到:

來源:中國食品藥品監(jiān)管雜志

相關(guān)新聞: