中文字幕一级黄色A级片|免费特级毛片。性欧美日本|偷拍亚洲欧美1级片|成人黄色中文小说网|A级片视频在线观看|老司机网址在线观看|免费一级无码激情黄所|欧美三级片区精品网站999|日韩av超碰日本青青草成人|一区二区亚洲AV婷婷

您當(dāng)前的位置:檢測資訊 > 科研開發(fā)

高質(zhì)量臨床微生物基因組參考數(shù)據(jù)庫構(gòu)建的思考

嘉峪檢測網(wǎng)        2024-07-08 08:20

摘  要  Abstract 

 

病原宏基因組高通量測序(mNGS)技術(shù)因其檢測時間短、分辨率高,能識別罕見、新發(fā)病原體引發(fā)的感染或者混合感染等優(yōu)勢,已經(jīng)被廣泛地應(yīng)用于臨床疑難感染的輔助診斷。然而,由于目前尚缺乏標(biāo)準(zhǔn)化生物信息學(xué)分析流程和高質(zhì)量臨床微生物基因組參考數(shù)據(jù)庫等問題,一定程度上制約了該技術(shù)臨床應(yīng)用的進(jìn)一步發(fā)展。本文介紹了高質(zhì)量臨床微生物基因組參考數(shù)據(jù)庫建設(shè)現(xiàn)狀,探討了高質(zhì)量臨床微生物基因組參考數(shù)據(jù)庫構(gòu)建的技術(shù)要求、質(zhì)量控制過程和實(shí)現(xiàn)方式,并提出相關(guān)思考和建議。

 

Pathogen metagenome next-generation sequencing (mNGS) technology has been widely used in the detection of clinical infectious diseases due to its advantages of short detection time, high resolution, and the ability to identify infections caused by rare and emerging pathogens or mixed infections. However, the lack of standardized bioinformatics analyses and high-quality clinical microbial genome reference databases has restricted the further clinical application of this technology. This paper introduces the current status of high-quality clinical microbial genome reference database construction, discusses the technical requirements, quality control processes, and implementation methods building such a database, and provides related

 

thoughts and suggestions.

 

關(guān)鍵詞  Key words

 

病原宏基因組高通量測序;生物信息學(xué)分析;微生物基因組參考數(shù)據(jù)庫;建設(shè)現(xiàn)狀;技術(shù)要求

 

metagenomic next-generation sequencing; bioinformatics analyses; microbial genome reference database;construction status; technical requirements

 

感染性疾病對人類健康構(gòu)成重大威脅,其病原體呈現(xiàn)多樣化和復(fù)雜化的發(fā)展趨勢??焖佟?zhǔn)確地進(jìn)行病原檢測,對于臨床診斷具有重要意義。病原宏基因組高通量測序(metagenome next-generation sequencing,mNGS)技術(shù)已經(jīng)從科研領(lǐng)域走向并廣泛地應(yīng)用于各種疑難感染病原微生物檢測、新發(fā)突發(fā)傳染病病因分析和溯源、毒力耐藥基因檢測等領(lǐng)域。常規(guī)的病原微生物培養(yǎng)法、血清學(xué)方法、抗原/抗體檢測以及傳統(tǒng)核酸檢測技術(shù),由于耗時長、靈敏度和特異性低、檢測譜窄等原因,在上述應(yīng)用場景下受限明顯[1]。

 

mNGS 技術(shù)可以直接對臨床樣本中的所有核酸進(jìn)行無偏倚測序和分析[2],包括樣品采集、建庫測序、數(shù)據(jù)分析、結(jié)果解讀(圖1)。與傳統(tǒng)的基于培養(yǎng)或分子的方法相比,mNGS 技術(shù)無需進(jìn)行病原分離培養(yǎng)或設(shè)計引物及探針,應(yīng)用高通量測序平臺,可以在10~30h 完成測序。通過分析測序數(shù)據(jù),不僅能夠?qū)颖局械募?xì)菌、真菌、病毒和寄生蟲等物種和豐度進(jìn)行檢測,同時還能夠分析其攜帶的耐藥和毒力基因[3]。

盡管mNGS 技術(shù)已經(jīng)在臨床感染診斷領(lǐng)域得到了廣泛應(yīng)用,但仍存在較多技術(shù)挑戰(zhàn)[4-6]。在實(shí)驗(yàn)過程中,由于測序和分析的是樣本中的全部核酸,其中必然會攜帶來源于宿主、試劑、耗材、實(shí)驗(yàn)室環(huán)境和人員等核酸,可能對生物信息學(xué)分析造成干擾。一方面,需要建立標(biāo)準(zhǔn)化的實(shí)驗(yàn)操作流程并嚴(yán)格執(zhí)行,以保證測序數(shù)據(jù)的質(zhì)量;另一方面,需要設(shè)置科學(xué)合理的陰陽性判斷閾值,建立標(biāo)準(zhǔn)化的生物信息學(xué)分析流程,以及高質(zhì)量的微生物基因組參考數(shù)據(jù)庫對測序數(shù)據(jù)進(jìn)行處理和分析,以實(shí)現(xiàn)準(zhǔn)確鑒定病原的目的[7]。

 

本文介紹了高質(zhì)量臨床微生物基因組參考數(shù)據(jù)庫建設(shè)現(xiàn)狀,并從技術(shù)要求、質(zhì)量控制過程和實(shí)現(xiàn)方式等方面,綜述了構(gòu)建高質(zhì)量臨床微生物基因組參考數(shù)據(jù)庫面臨的挑戰(zhàn),并提出了相應(yīng)建議。

 

1、 高質(zhì)量臨床微生物基因組參考數(shù)據(jù)庫建設(shè)現(xiàn)狀

 

mNGS 技術(shù)是無預(yù)設(shè)、無偏倚的測序,結(jié)果的分析和報告依賴于測序序列與基因組參考數(shù)據(jù)庫的比對,因此mNGS 檢測性能在很大程度上取決于生物信息學(xué)分析的分類算法組合,以及基因組參考數(shù)據(jù)庫。該數(shù)據(jù)庫主要由兩部分組成,包括宿主基因組數(shù)據(jù)庫和微生物基因組參考數(shù)據(jù)庫,其中后者對報告結(jié)果準(zhǔn)確性的影響更直接且關(guān)鍵。中華醫(yī)學(xué)會檢驗(yàn)醫(yī)學(xué)分會發(fā)布的《宏基因組測序病原微生物檢測生物信息學(xué)分析規(guī)范化管理專家共識》[8] 中,建議滿足臨床檢測的比對數(shù)據(jù)庫,至少應(yīng)包括微生物、人源及背景序列數(shù)據(jù)等;同時建議實(shí)驗(yàn)室應(yīng)保證數(shù)據(jù)庫穩(wěn)定運(yùn)行,及時補(bǔ)充新發(fā)病原體,提高數(shù)據(jù)庫覆蓋度。

 

然而,關(guān)于如何構(gòu)建適用于mNGS 技術(shù)的高質(zhì)量臨床微生物基因組參考數(shù)據(jù)庫,尚缺少針對性的技術(shù)文件和共識。目前,國內(nèi)外沒有可以直接適用于mNGS的微生物基因組參考數(shù)據(jù)庫,科研機(jī)構(gòu)、臨床實(shí)驗(yàn)室以及mNGS產(chǎn)品研發(fā)機(jī)構(gòu)等,需要利用公共數(shù)據(jù)庫中的基因組數(shù)據(jù),自行構(gòu)建用于比對的數(shù)據(jù)庫。不同機(jī)構(gòu)自建的參考數(shù)據(jù)庫,所選取的微生物基因組數(shù)據(jù)的來源、質(zhì)量控制標(biāo)準(zhǔn)、清洗流程及質(zhì)量均不一致, 可能會出現(xiàn)不同機(jī)構(gòu)應(yīng)用mNGS 檢測的結(jié)果參差不齊、可比性較差的情況。微生物基因組參考數(shù)據(jù)庫的建設(shè)是一個復(fù)雜的過程, 因此, 應(yīng)盡量形成一套公認(rèn)的、詳細(xì)的指導(dǎo)方案, 并且在建設(shè)的過程中要考慮盡量保證準(zhǔn)確、高效且對臨床具有可操作性。

 

2、 高質(zhì)量臨床微生物基因組參考數(shù)據(jù)庫建設(shè)技術(shù)要求

 

建設(shè)用于mNGS 結(jié)果比對的臨床微生物基因組參考數(shù)據(jù)庫,可以從數(shù)據(jù)源、代表性基因組的選取,以及數(shù)據(jù)質(zhì)量控制等方面來進(jìn)行規(guī)范(圖2)。

2.1 數(shù)據(jù)源選擇

 

國際核酸序列數(shù)據(jù)庫聯(lián)盟(International Nucleotide Sequence Database Collaboration,INSDC),是由美國國家生物技術(shù)信息中心(National Centerfor Biotechnology Information,NCBI) 建設(shè)的基因數(shù)據(jù)庫(GenBank)[9]、歐洲核酸庫(European Nucleotide Archive,ENA)[10] 和日本DNA 數(shù)據(jù)庫(DNA Data Bank of Japan,DDBJ)[11] 組成,收錄了絕大多數(shù)全球科學(xué)家發(fā)表的基因組原始測序數(shù)據(jù)、基因組拼接數(shù)據(jù)以及蛋白質(zhì)序列數(shù)據(jù)等組學(xué)數(shù)據(jù)。三大核酸數(shù)據(jù)庫定期進(jìn)行數(shù)據(jù)交換,以保證數(shù)據(jù)存儲標(biāo)準(zhǔn)和內(nèi)容的一致性。其中GenBank 數(shù)據(jù)庫是選取參考基因組的主要數(shù)據(jù)來源。

 

由于INSDC 數(shù)據(jù)庫中收錄的數(shù)據(jù)主要來源于全球用戶的直接提交,因此存在大量序列數(shù)據(jù)質(zhì)量低、物種注釋不準(zhǔn)確及序列污染等質(zhì)量問題。因此,為了提供高質(zhì)量的參考數(shù)據(jù),除了GenBank,NCBI 還建立了Taxonomy[12]、RefSeq[13]、Pathogen Detection[14] 等數(shù)據(jù)庫。Taxonomy 數(shù)據(jù)庫是關(guān)于物種分類和命名的數(shù)據(jù)庫,目前收錄超過7萬個物種的名字和種系,并且每一條記錄都鏈接到其對應(yīng)的核酸或蛋白序列。需要注意的是,NCBI 維護(hù)的分類學(xué)數(shù)據(jù)庫是基于序列的進(jìn)化關(guān)系建立的分類地位,與一些分類學(xué)及命名數(shù)據(jù)庫如原核生物名稱列表(List of Prokaryotic nameswith Standing in Nomenclature,LPSN)數(shù)據(jù)庫在物種分類和命名上有部分沖突。因此,在確定基因組對應(yīng)的物種正確的分類和命名時,還需要參考標(biāo)準(zhǔn)的分類學(xué)數(shù)據(jù)庫。RefSeq 數(shù)據(jù)庫是經(jīng)過NCBI篩選過的非冗余數(shù)據(jù)庫,具有較高的準(zhǔn)確性。因此,如果某個物種具有RefSeq 基因組時,可以優(yōu)先選取該基因組序列。Pathogen Detection 是病原微生物專題數(shù)據(jù)庫,整合來源于食品、環(huán)境和患者的細(xì)菌病原基因組數(shù)據(jù),同時還對集成的數(shù)據(jù)提供聚類分析,從而用于識別潛在傳播鏈,并且利用AMRFinderPlus[15] 工具通過使用蛋白質(zhì)注釋或組裝核苷酸序列來識別耐藥基因和相關(guān)突變位點(diǎn)。

 

除NCBI 以外,國際微生物領(lǐng)域中一些研究機(jī)構(gòu)或組織,為了支撐高質(zhì)量的數(shù)據(jù)研究進(jìn)行了大量的基因組測序,并同公共來源的數(shù)據(jù)整合形成了專題參考數(shù)據(jù)庫, 例如微生物基因組和微生物組綜合數(shù)據(jù)庫(Integrated Microbial Genomes & Microbiomes,IMG/M)[16]、美國食品藥品監(jiān)督管理局參考級微生物測序數(shù)據(jù)庫(Food and Drug Administration-Database for Reference Grade Microbial Sequences,F(xiàn)DAARGOS)[17]、細(xì)菌和病毒生物信息學(xué)資源中心(Bacterial and Viral Bioinformatics Resource Center,BV-BRC)[18]、全球模式菌株目錄(Global Catalogueof Type Strain,gcType)[19]等。IMG/M 由美國能源部聯(lián)合基因組研究所建設(shè),整合了微生物基因組、宏基因組和病毒組數(shù)據(jù),并提供在線的分析平臺。FDA-ARGOS 數(shù)據(jù)庫是一個經(jīng)過注釋的高質(zhì)量測序病原微生物基因組數(shù)據(jù)庫。BV-BRC 由美國國家過敏和傳染病研究所建立,整合了細(xì)菌、流感研究數(shù)據(jù)庫和病毒病原體數(shù)據(jù)庫與分析資源的資源,以幫助研究人員分析不斷增長的基因組序列和其他組學(xué)相關(guān)數(shù)據(jù)。gcType 是由我國中國科學(xué)院微生物研究所國家微生物科學(xué)數(shù)據(jù)中心(National Microbiology Data Center,NMDC) 建立和維護(hù),對全球所有細(xì)菌和古菌的模式菌株進(jìn)行基因組測序,目前該數(shù)據(jù)庫已經(jīng)整合了15 823 個種的原核微生物模式基因組序列,其中自測基因組4805 個,極大地填補(bǔ)了公共數(shù)據(jù)源中的空白。

 

當(dāng)機(jī)構(gòu)自建參考數(shù)據(jù)庫,在選擇數(shù)據(jù)源時,要對不同來源的相同數(shù)據(jù)進(jìn)行去除冗余的處理,或者明確不同數(shù)據(jù)庫中,各類數(shù)據(jù)的來源,避免重復(fù)選擇以減輕工作量。為此,NMDC 建立了一個開放的基于人工注釋的全球病原體目錄(Global Catalogue of Pathogens, gcPathogen)[20],旨在支持快速和準(zhǔn)確的病原體基因組分析、流行病學(xué)研究,以及抗生素耐藥性特征和毒力因子的監(jiān)測。病原體清單來自醫(yī)學(xué)或政府病原體清單和出版物的證據(jù)支持的數(shù)據(jù),包括來自509 種細(xì)菌的110 萬個基因組、來自407種真菌的6785 個基因組(其中30% 以上來自自測真菌基因組數(shù)據(jù))、來自226 種病毒的9 萬個基因組(不包括流感病毒、新冠病毒基因組數(shù)據(jù))、來自174 種寄生蟲的670 個基因組數(shù)據(jù)。

 

盡管從國際公共來源的數(shù)據(jù)庫可以實(shí)現(xiàn)絕大多數(shù)微生物基因組數(shù)據(jù)的整合,但目前還有大量的未測序物種,一個尤為突出的情況是目前國際數(shù)據(jù)庫中,感染性真菌基因組數(shù)量較為稀少。根據(jù)統(tǒng)計,有明確感染史的致人類感染的真菌超過400 種,但目前公共數(shù)據(jù)庫中,有基因組測序數(shù)據(jù)的僅有不到300 種。還有許多重要的物種,例如在《WHO 指導(dǎo)研究、開發(fā)和公共衛(wèi)生行動的真菌優(yōu)先病原體清單》[21] 中列為第二級重要性的毛霉屬,大部分具有感染史的物種沒有基因組數(shù)據(jù)。這些問題對于相關(guān)病原體的檢出造成巨大挑戰(zhàn)。因此,在整合公共數(shù)據(jù)的同時,進(jìn)行病原微生物基因組測序,補(bǔ)充常見但目前缺失的病原體基因組數(shù)據(jù),也是實(shí)現(xiàn)臨床微生物基因組參考數(shù)據(jù)庫完整性的一個重要方面。

 

2.2 基因組數(shù)據(jù)質(zhì)量控制

 

公共來源的微生物基因組數(shù)據(jù)來自全球各地用戶的提交,可能存在序列污染、物種分類錯誤、命名不準(zhǔn)確、測序數(shù)據(jù)質(zhì)量低、完整度差等各種質(zhì)量問題。因此,對數(shù)據(jù)進(jìn)行質(zhì)量控制處理與整合,是建設(shè)高質(zhì)量的微生物基因組參考數(shù)據(jù)庫最重要的步驟,建議考慮且不限于以下數(shù)據(jù)質(zhì)量控制方法。

 

(1)分類信息評估與確認(rèn)。存在于公共數(shù)據(jù)庫中的數(shù)據(jù),可能由于提交人的失誤,或受限于提交時可進(jìn)行比對的參考數(shù)據(jù)較少,存在分類錯誤。因此,對于通過質(zhì)量控制的序列, 應(yīng)當(dāng)進(jìn)行平均核苷酸相似度(average nucleotide identity,ANI)比較,或者構(gòu)建進(jìn)化樹,確定每一個挑選的基因組具有正確的分類地位,剔除分類錯誤基因組。

 

(2)測序質(zhì)量、組裝質(zhì)量評估。測序深度不足、組裝不準(zhǔn)確等因素造成的基因組序列不完整,或基因組序列片段化嚴(yán)重(N50小,contigs 或scaffolds 數(shù)量過多)等。利用CheckM[22] 等軟件對數(shù)據(jù)進(jìn)行質(zhì)量評估,在有多條序列可選擇的情況下,優(yōu)先選擇測序質(zhì)量好、完整度高的序列,比如污染度小于1%,完整度大于99% 的基因組數(shù)據(jù)。

 

(3)污染序列過濾。在微生物全基因組測序的過程中,微生物樣本、核酸提取建庫過程都有可能受到人類基因序列的污染。在mNGS 分析中,如果人源序列過濾不干凈,殘留的人源序列就可能被錯誤地鑒定到了這些含有人源基因片段污染的微生物,造成假陽性檢出。因此,需要去除宿主序列等污染再進(jìn)行數(shù)據(jù)庫的構(gòu)建,減少比對假陽性的結(jié)果。

 

(4)微生物命名準(zhǔn)確性。微生物命名需要參考國際權(quán)威的微生物命名數(shù)據(jù)庫, 細(xì)菌可以參考LPSN[23]、真菌可以參考真菌命名(Fungal Names)[24]、病毒可以參考國際病毒分類委員會(International Committee on Taxonomy of Viruses, ICTV)[25]等數(shù)據(jù)庫。然而,無論哪類數(shù)據(jù)庫,微生物的命名都會隨時更新曾經(jīng)分類錯誤的數(shù)據(jù),包括分類地位的改變或者命名的改變。因此,保持參考數(shù)據(jù)庫的定期更新,是保證數(shù)據(jù)庫質(zhì)量的一個重要因素。

 

2.3 代表性基因組選擇

 

高質(zhì)量的參考數(shù)據(jù)庫既要做到全面,能夠提供不同分類等級的微生物基因組的代表性特征;又要做到簡潔,太多的冗余序列會造成分析時間增加,或可能導(dǎo)致假陽性和假陰性問題而影響臨床使用效果。

 

在選擇代表性基因組時,需要充分考慮鑒定的目的和不同微生物的特點(diǎn)。如果缺失了病原微生物的基因組數(shù)據(jù),可能導(dǎo)致測序序列無法比對,造成假陰性結(jié)果;如果缺失了非病原微生物的基因組數(shù)據(jù),則可能導(dǎo)致測序序列錯誤比對到該缺失基因組近緣的病原微生物,而造成假陽性結(jié)果。對于病原微生物,為了提供準(zhǔn)確和高分辨率的鑒定結(jié)果,可選擇不同血清型、基因型的代表性基因組。對于病毒數(shù)據(jù),由于序列較短,且病毒分型較為復(fù)雜,在選取參考基因組時,應(yīng)盡量全面地納入代表性數(shù)據(jù),甚至應(yīng)包括部分不完整但能提供分型特征基因序列,從而實(shí)現(xiàn)更加準(zhǔn)確的鑒定。

 

此外,有一些物種的種內(nèi)基因組差異較大,或者與其他近緣物種在基因組特征上重疊情況嚴(yán)重,如金黃色葡萄球菌與凝固酶陰性葡萄球菌、大腸埃希菌與志賀菌、鼻病毒的不同株系等。對于這些物種,選取代表性基因組無法代表種內(nèi)所有的基因特征,或無法實(shí)現(xiàn)與近緣種的區(qū)分。這類問題的解決方案,可以考慮通過構(gòu)建進(jìn)化樹或基于基因組相似性進(jìn)行聚類分析,選取不同進(jìn)化分支或聚類的代表性基因組;或者可以構(gòu)建種內(nèi)共性及特異性基因的泛基因組集,通過比對的方式來代替單個代表性基因組的選擇。

 

3、 高質(zhì)量臨床微生物基因組參考數(shù)據(jù)庫的相關(guān)數(shù)據(jù)庫建設(shè)

 

3.1 人源參考基因組數(shù)據(jù)庫

 

常用的人基因組包括Hg19、GRCH38 和YH2.0, 以及由國際科學(xué)團(tuán)隊(duì)端粒到端粒聯(lián)盟(Telomere-to-Telomere,T2T)于2022 年發(fā)布的完整無間隙的人基因組T2T-CHM13。建議實(shí)驗(yàn)室根據(jù)最新版國際人類參考基因組,構(gòu)建全面特異的人源基因序列數(shù)據(jù)庫。

 

3.2 微生物知識庫

 

mNGS 的檢測報告, 一般包括比對到病原微生物的種類、病原微生物是否超過陽性閾值條件等關(guān)鍵信息;還可以提供物種的相對豐度、重要的耐藥和毒力基因,以及檢出的物種中包含的病原微生物感染引起的臨床癥狀等附加信息。因此, 機(jī)構(gòu)自建mNGS 參考數(shù)據(jù)庫時,在保證宿主基因組數(shù)據(jù)庫和微生物基因組參考數(shù)據(jù)庫質(zhì)量的前提下,可以附加建立微生物知識庫,從而為臨床診斷與用藥提供更豐富的參考信息。

 

例如,病原微生物知識庫提供不同感染部位主要的定植菌、條件致病菌和感染菌的清單,同時提供該病原微生物或癥候群感染相關(guān)的描述信息;耐藥基因數(shù)據(jù)庫可以整合來源于抗生素耐藥綜合數(shù)據(jù)庫(Comprehensive Antibiotic Resistance Database,CARD)[26]、識別測序數(shù)據(jù)中耐藥基因和表型預(yù)測資源庫(ResFinder)[27] 和毒力因子數(shù)據(jù)庫(Virulence Factor Database,VFDB)[28] 等國際公認(rèn)數(shù)據(jù)庫的數(shù)據(jù)。由于mNGS測序數(shù)據(jù)中微生物基因組序列占比相對可能較小,可能無法做基因組拼接,基于短測序讀序數(shù)據(jù)無法判斷所檢出的耐藥基因或毒力因子位于某一個具體的病原物種中。因此,可以建立耐藥和毒力基因分布頻率數(shù)據(jù)庫,通過比對所關(guān)注的基因存在的頻率,給出間接的參考信息。

 

3.3 背景微生物基因組數(shù)據(jù)庫

 

mNGS 檢測過程中, 由于采樣和試驗(yàn)操作引入的實(shí)驗(yàn)室環(huán)境和操作人員攜帶的微生物、試劑原料中的潛在工程菌,以及在試劑和耗材生產(chǎn)過程中引入的生產(chǎn)環(huán)境和生產(chǎn)人員攜帶的微生物等,一般統(tǒng)稱背景微生物或背景菌,可能對生物信息學(xué)分析環(huán)節(jié)造成影響[29]。不同樣本中背景菌的組成、來源,以及背景菌對檢測結(jié)果的影響等均復(fù)雜多變。構(gòu)建背景微生物基因組數(shù)據(jù)庫時,可以根據(jù)使用mNGS 的實(shí)驗(yàn)室具體操作流程、檢測樣本的具體類型和處理要求,結(jié)合前期研究的數(shù)據(jù)進(jìn)行建設(shè)并監(jiān)測;或者可以選擇相應(yīng)模式菌株的基因組或者RefSeq 數(shù)據(jù)庫中的參考基因組。

 

4、 其他要求

 

臨床微生物基因組數(shù)據(jù)庫建立后的一個重要環(huán)節(jié),是質(zhì)量控制與評價。基因組數(shù)據(jù)庫和生物信息學(xué)分析一起構(gòu)成了mNGS 檢測的非試驗(yàn)操作部分,即干實(shí)驗(yàn)環(huán)節(jié)。應(yīng)用可溯源的數(shù)字參考品,可以對mNGS 干實(shí)驗(yàn)環(huán)節(jié)整體進(jìn)行評價,評價內(nèi)容包括物種鑒定的準(zhǔn)確性、近緣微生物同源干擾影響和微生物種類完整性等;數(shù)字參考品結(jié)合高質(zhì)量的基因組數(shù)據(jù)庫,還可以對軟件算法及其運(yùn)行參數(shù)進(jìn)行評價。由于各機(jī)構(gòu)自建的參考數(shù)據(jù)庫,都是經(jīng)過與配套軟件算法一同構(gòu)建和優(yōu)化的,難以對數(shù)據(jù)庫進(jìn)行單獨(dú)評價。此外,目前尚無公認(rèn)權(quán)威的標(biāo)準(zhǔn)化或國家級數(shù)字參考品,能夠?qū)⒖紨?shù)據(jù)庫和生物信息學(xué)分析流程進(jìn)行質(zhì)量評價。

 

參考數(shù)據(jù)庫的建設(shè)還需要考慮安全的要求,一方面,對于使用的臨床樣本數(shù)據(jù),需要具備完整的倫理審查過程,保障自測基因組數(shù)據(jù)的安全性和可用性。另一方面,利用基于隱私計算和區(qū)塊鏈結(jié)合的技術(shù),通過單向隱私計算及多方安全計算等方式,在保障數(shù)據(jù)庫安全的同時,為用戶提供符合數(shù)據(jù)分類分級要求的使用平臺。

 

通常公共數(shù)據(jù)的更新時間較為頻繁,為保證數(shù)據(jù)準(zhǔn)確性,對于基因組數(shù)據(jù)庫和物種分類數(shù)據(jù)庫應(yīng)當(dāng)對更新的數(shù)據(jù)進(jìn)行跟蹤及驗(yàn)證,以確保更新的內(nèi)容對檢測結(jié)果無影響,并根據(jù)評價的結(jié)果對數(shù)據(jù)庫進(jìn)行必要的更新。對于微生物知識庫,應(yīng)能夠提供來源于公共數(shù)據(jù)庫數(shù)據(jù)的更新時間和版本號。

 

5、 結(jié)語

 

當(dāng)前,mNGS 技術(shù)廣泛應(yīng)用于臨床感染診斷領(lǐng)域,但仍面臨生物信息學(xué)分析流程和臨床微生物基因組參考數(shù)據(jù)庫標(biāo)準(zhǔn)化程度低的挑戰(zhàn)。一方面,應(yīng)當(dāng)盡快建立自主知識產(chǎn)權(quán)的高質(zhì)量臨床微生物基因組參考數(shù)據(jù)庫,并建立標(biāo)準(zhǔn)化的數(shù)字參考品和驗(yàn)證流程,實(shí)現(xiàn)對其質(zhì)量的驗(yàn)證與評價。另一方面,由于微生物基因組參考數(shù)據(jù)庫是影響軟件性能的重要因素,因此,需要對數(shù)據(jù)庫的全面性、準(zhǔn)確性和代表性進(jìn)行科學(xué)地測試與評價未來,可以探索使用數(shù)字參考品開展對數(shù)據(jù)庫性能評測的研究。

 

數(shù)據(jù)安全和隱私保護(hù)越來越成為一個制約數(shù)據(jù)使用的重要因素,利用區(qū)塊鏈、聯(lián)邦學(xué)習(xí)、隱私計算等數(shù)據(jù)安全保護(hù)技術(shù)在保障數(shù)據(jù)安全的同時,提升數(shù)據(jù)的可用性,實(shí)現(xiàn)數(shù)據(jù)價值的挖掘,為臨床診斷提供更多的參考,也是在當(dāng)前國家大力發(fā)展數(shù)據(jù)戰(zhàn)略的形勢下,需要面臨的思考和挑戰(zhàn)。

分享到:

來源:中國食品藥品監(jiān)管雜志

相關(guān)新聞: