您當(dāng)前的位置:檢測(cè)資訊 > 科研開發(fā)
嘉峪檢測(cè)網(wǎng) 2022-06-18 04:53
摘 要 / Abstract
臨床研究中電子病例報(bào)告表(eCRF)的數(shù)據(jù)收集,傳統(tǒng)上由臨床研究協(xié)調(diào)員(CRC)閱讀電子病歷(EMR)數(shù)據(jù)將相關(guān)內(nèi)容手動(dòng)錄入至電子數(shù)據(jù)采集(EDC)系統(tǒng)。為了減輕CRC的負(fù)擔(dān),目前已有研究在探索將EMR源數(shù)據(jù)經(jīng)過數(shù)據(jù)標(biāo)準(zhǔn)化轉(zhuǎn)換直接變?yōu)檠芯繑?shù)據(jù)集的方法。EMR中大量的非結(jié)構(gòu)化文本數(shù)據(jù)導(dǎo)致了數(shù)據(jù)提取困難,無法直接用于臨床研究。本文首先探討了國內(nèi)對(duì)于真實(shí)世界數(shù)據(jù)應(yīng)用于臨床研究數(shù)據(jù)標(biāo)準(zhǔn)化的需求及困難,開發(fā)了一種數(shù)據(jù)標(biāo)準(zhǔn)化方法。本方法可以基于EMR源數(shù)據(jù),通過數(shù)據(jù)標(biāo)準(zhǔn)化的方式自動(dòng)填充臨床數(shù)據(jù)交換標(biāo)準(zhǔn)協(xié)會(huì)(CDISC)標(biāo)準(zhǔn)的eCRF,并滿足監(jiān)管部門的數(shù)據(jù)遞交要求。本方法采用了我國常見的數(shù)據(jù)標(biāo)準(zhǔn)、人工智能領(lǐng)域的自然語言處理技術(shù),以及提升數(shù)據(jù)質(zhì)量的創(chuàng)新型數(shù)據(jù)采集模式。其數(shù)據(jù)轉(zhuǎn)化過程的核心是根據(jù)最簡化的數(shù)據(jù)模型制定文本數(shù)據(jù)標(biāo)簽指南,提高了使用自然語言處理算法的效率,優(yōu)化了其與臨床數(shù)據(jù)模型的互操作性,以及輔助提取研究中所需要的標(biāo)準(zhǔn)術(shù)語庫。
For the data collection of electronic case report form (eCRF) in clinical research,the clinical research coordinator (CRC) traditionally reads the electronic medical record (EMR) and manually enters its relevant contents into the electronic data collection system (EDC).In order to reduce the burden of CRC,methods has been explored to directly transform EMR source data into a research dataset through data standardization and transformation.The large amount of unstructured text data in EMR leads to difficulty in data extraction,which prevents data from being directly used in clinical research.This study discusses the domestic needs and difficulties of real-world data standardization,and develops a data standardization framework to solve the difficulties.The data standardization framework developed can be used to automatically fill the eCRFs based on the CDISC standard using EMR source data while satisfying regulatory requirements for data submission authorities.The framework considers China's common data standards,natural language processing technology in the field of artificial intelligence,and innovative data acquisition mode to improve data quality.The core aspects of the data transformation process in the standardization framework include the formulation of text data label guidelines according to the simple data models,improvement of the efficiency of natural language processing algorithms,optimization of interoperability with clinical data models and capture of standard terminologies used in clinical research.
關(guān) 鍵 詞 / Key words
真實(shí)世界數(shù)據(jù);臨床研究源數(shù)據(jù)采集;數(shù)據(jù)標(biāo)準(zhǔn)化; 電子源數(shù)據(jù);符合監(jiān)管提交標(biāo)準(zhǔn)
real-world data; collection of clinical research source data; data standardization; electronic source data; compliace with regulatory submission standard
01、研究背景
真實(shí)世界數(shù)據(jù)(real-world data,RWD)是指來源于日常收集的各種與患者健康狀況和(或)診療及保健有關(guān)的數(shù)據(jù)[1-5]。目前,在我國與真實(shí)世界數(shù)據(jù)源[如電子病歷(electronic medical records,EMR)數(shù)據(jù)]相關(guān)的數(shù)據(jù)標(biāo)準(zhǔn)已逐漸從臨床文檔的基本指南演變?yōu)楦鼮橥ㄓ玫呐R床數(shù)據(jù)模型。如果不從根本上改進(jìn)閱讀EMR的功能、提高臨床診療的質(zhì)量,對(duì)EMR進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化將毫無意義。因此,實(shí)施真實(shí)世界數(shù)據(jù)標(biāo)準(zhǔn),通常是使用更標(biāo)準(zhǔn)化的數(shù)據(jù)收集方法的綜合討論結(jié)果。該方法首先要在滿足常規(guī)臨床診療數(shù)據(jù)收集要求的基礎(chǔ)上,通過提高數(shù)據(jù)收集的質(zhì)量,更好地利用真實(shí)世界數(shù)據(jù),例如將其用于臨床研究和臨床決策支持。
2009年12月,原衛(wèi)生部、國家中醫(yī)藥管理局發(fā)布《電子病歷基本架構(gòu)與數(shù)據(jù)標(biāo)準(zhǔn)(試行)》[6],考慮到中西醫(yī)結(jié)合的病歷書寫基本規(guī)范和現(xiàn)有EMR的信息主要來源,采用目前衛(wèi)生領(lǐng)域已有的國際、國內(nèi)普遍應(yīng)用的成熟標(biāo)準(zhǔn),構(gòu)建適用于滿足醫(yī)療衛(wèi)生機(jī)構(gòu)間臨床診療信息共享的數(shù)據(jù)集以及共享文檔標(biāo)準(zhǔn),推廣及評(píng)價(jià)數(shù)據(jù)標(biāo)準(zhǔn)的實(shí)際應(yīng)用。2018年,國家衛(wèi)生健康委辦公廳發(fā)布《電子病歷系統(tǒng)應(yīng)用水平分級(jí)評(píng)價(jià)標(biāo)準(zhǔn)(試行)》[7]并實(shí)施評(píng)價(jià)醫(yī)院系統(tǒng)的分級(jí),促使各醫(yī)院均加強(qiáng)了醫(yī)院系統(tǒng)功能。政策發(fā)布的目的是為使2020年所有3級(jí)醫(yī)院達(dá)到分級(jí)評(píng)價(jià)4級(jí)以上(全院信息共享、初級(jí)醫(yī)療決策支持);2級(jí)醫(yī)院達(dá)到分級(jí)評(píng)價(jià)3級(jí)以上(部門間數(shù)據(jù)交換)。目前,多數(shù)醫(yī)院信息系統(tǒng)已擁有基礎(chǔ)的全院信息共享能力。2020年8月,國家衛(wèi)生健康委統(tǒng)計(jì)信息中心發(fā)布了《國家醫(yī)療健康信息醫(yī)院信息互聯(lián)互通標(biāo)準(zhǔn)化成熟度測(cè)評(píng)方案(2020年版)》[8],更詳細(xì)地評(píng)價(jià)了醫(yī)院平臺(tái)互聯(lián)互通標(biāo)準(zhǔn)化成熟度?;ヂ?lián)互通的評(píng)價(jià)標(biāo)準(zhǔn),以提到的EMR數(shù)據(jù)集標(biāo)準(zhǔn)轉(zhuǎn)化成HL7 臨床文檔結(jié)構(gòu)(CDA)標(biāo)準(zhǔn)的電子病例共享文檔標(biāo)準(zhǔn)為主,而HL7 CDA是以HL7 RIM作為主要支撐的數(shù)據(jù)模型[9-10]。
如果EMR數(shù)據(jù)變得標(biāo)準(zhǔn)化且更容易獲取,臨床研究的未來將受益匪淺。然而,由于完全通過使用標(biāo)準(zhǔn)化數(shù)據(jù)元素收集數(shù)據(jù)存在一定局限性,為了充分利用EMR,需要考慮結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。標(biāo)準(zhǔn)化數(shù)據(jù)元素的使用應(yīng)限于特定的用例,例如只是匯總住院患者主頁的患者病例報(bào)告,而不是擴(kuò)展到所有數(shù)據(jù)元素。且標(biāo)準(zhǔn)化數(shù)據(jù)元素不適合醫(yī)生在臨床診療期間描述其完整的思維過程,通常缺乏醫(yī)生文本匯錄所需要的細(xì)節(jié)顆粒度以及臨床判斷中的推理過程。一般來說,通過使用越來越具體的數(shù)據(jù)元素或特定的詞匯進(jìn)行標(biāo)準(zhǔn)化,將減少用于描述醫(yī)療活動(dòng)的思維范圍,并增加選擇正確選項(xiàng)所需的人力成本。因此,標(biāo)準(zhǔn)化數(shù)據(jù)的工作最好由能夠更快地適應(yīng)新數(shù)據(jù)模型和標(biāo)準(zhǔn)詞匯表的算法來處理,而不是對(duì)生成源數(shù)據(jù)的人員進(jìn)行過多培訓(xùn)。
如何提高從文本記錄中提取臨床研究數(shù)據(jù)的能力,將可能是未來數(shù)據(jù)標(biāo)準(zhǔn)化的潛在研究熱點(diǎn)。①與基于系統(tǒng)改變整個(gè)數(shù)據(jù)結(jié)構(gòu)的更改相比,改進(jìn)文本輸入的建議更容易實(shí)施。②將數(shù)據(jù)模型約束從源數(shù)據(jù)結(jié)構(gòu)中分離出來可能會(huì)激發(fā)更簡單的數(shù)據(jù)建模方法,而不必采用通用數(shù)據(jù)模型,如觀察健康數(shù)據(jù)科學(xué)和信息學(xué)OMOP通用數(shù)據(jù)模型(OMOP CDM)。構(gòu)建包含所有類型研究模型所付出的努力,將可能因無法實(shí)施和審核這些模型情況而失敗,或?qū)е率褂盟惴ㄌ崛∷钄?shù)據(jù)的效率低下。因此,模型就像術(shù)語一樣,需要具備關(guān)注并適應(yīng)不同研究項(xiàng)目的能力。③可以更有效地捕獲新的思維過程或常用的醫(yī)學(xué)術(shù)語,并用于快速改進(jìn)現(xiàn)有的數(shù)據(jù)模型和術(shù)語庫。④自然語言處理(nature language processing,NLP)算法正在迅速發(fā)展,與人工相比,其可以更快地提取數(shù)據(jù)和數(shù)據(jù)上下文關(guān)系。本文旨在探索臨床研究中非結(jié)構(gòu)化文本數(shù)據(jù)的電子來源(eSource)模式,并將開發(fā)一個(gè)從真實(shí)世界數(shù)據(jù)到臨床研究數(shù)據(jù)的標(biāo)準(zhǔn)化方法,用于根據(jù)臨床數(shù)據(jù)交換標(biāo)準(zhǔn)協(xié)會(huì)(CDISC)標(biāo)準(zhǔn)填寫病例報(bào)告表,并滿足數(shù)據(jù)收集中的監(jiān)管和可追溯性要求??蚣苤袘?yīng)用了我國常見的數(shù)據(jù)標(biāo)準(zhǔn)、人工智能領(lǐng)域的自然語言處理技術(shù),以及提升數(shù)據(jù)質(zhì)量的創(chuàng)新型數(shù)據(jù)采集模式。
02、從真實(shí)世界數(shù)據(jù)到臨床研究數(shù)據(jù)標(biāo)準(zhǔn)轉(zhuǎn)化過程的概述
將真實(shí)世界數(shù)據(jù)用于臨床研究,理想的方案是能直接從醫(yī)療機(jī)構(gòu)中的EMR捕獲源數(shù)據(jù)并將其傳輸?shù)脚R床研究電子病例報(bào)告表(electronic case report form,eCRF)的過程,真正實(shí)現(xiàn)電子數(shù)據(jù)采集 (electronic data capture,EDC)系統(tǒng)。即需要研發(fā)一種能根據(jù)臨床研究方案中有關(guān)研究數(shù)據(jù)采集要求,在真實(shí)醫(yī)療環(huán)境中完成電子源數(shù)據(jù)記錄(eSource record,ESR)的工具。其功能涵蓋臨床研究全流程,主要包括了源數(shù)據(jù)采集、數(shù)據(jù)提取和治理以及EDC和EMR對(duì)接。臨床醫(yī)師根據(jù)研究方案制定符合臨床習(xí)慣的病歷書寫規(guī)則,通過語音輸入和病史問診的病歷預(yù)填充等功能可以更高效地完成病歷記錄,利用微信公眾號(hào)等院外隨訪功能可以方便地收集院外數(shù)據(jù)。ESR可以實(shí)時(shí)自動(dòng)從完成的病歷中抓取數(shù)據(jù)填充到eCRF中,同時(shí)也支持對(duì)源數(shù)據(jù)進(jìn)行溯源查看。ESR充分考慮了源數(shù)據(jù)來源的多樣性、數(shù)據(jù)互操作性和數(shù)據(jù)標(biāo)準(zhǔn)化的挑戰(zhàn)。通過創(chuàng)新性地優(yōu)化臨床研究的源數(shù)據(jù)采集過程,并遵循電子源數(shù)據(jù)要求理念和藥物臨床試驗(yàn)質(zhì)量管理規(guī)范(GCP)原則設(shè)計(jì),ESR系統(tǒng)還應(yīng)滿足臨床研究數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)(ALCOA+CCEA 原則),同時(shí)提高臨床醫(yī)師撰寫EMR的工作效率。通過對(duì)接EMR和EDC,ESR可以靈活應(yīng)對(duì)當(dāng)前醫(yī)療信息水平現(xiàn)狀,實(shí)施更簡單且易于落地推廣,具有更高的規(guī)范性和可持續(xù)性。為了更好地將真實(shí)世界數(shù)據(jù)應(yīng)用于臨床研究,ESR系統(tǒng)必須與EMR和EDC系統(tǒng)具有互操作性,并滿足有關(guān)數(shù)據(jù)可追溯性的法規(guī)要求[11]。
為加強(qiáng)系統(tǒng)之間的互操作性,在ESR系統(tǒng)內(nèi)部設(shè)置了面向不同臨床研究角色的工作界面。醫(yī)生可以選擇使用各自醫(yī)院的EMR系統(tǒng),或直接使用ESR系統(tǒng)內(nèi)的電子病歷記錄模板,即ESR和EMR。此時(shí),若醫(yī)生希望將數(shù)據(jù)導(dǎo)出至各自的EMR系統(tǒng),ESR系統(tǒng)也可實(shí)現(xiàn)回傳標(biāo)準(zhǔn)化后的EMR文件。
此外,ESR系統(tǒng)還考慮了臨床研究開展過程中臨床研究協(xié)調(diào)員(clinical research coordinator,CRC)記錄CRF的工作。ESR系統(tǒng)能夠從EDC系統(tǒng)中檢索CDISC操作數(shù)據(jù)模型(CDISC ODM)表單并直接展示源數(shù)據(jù)。在數(shù)據(jù)標(biāo)準(zhǔn)化的過程完成后,CRC能夠?qū)徍藛蝹€(gè)表格的預(yù)填數(shù)據(jù)是否正確,并在簽署確認(rèn)后將CRF發(fā)至EDC系統(tǒng)。這樣,數(shù)據(jù)的可追溯性即可通過ESR系統(tǒng)得到保證,因?yàn)槠溆涗浟苏麄€(gè)數(shù)據(jù)標(biāo)準(zhǔn)化過程的軌跡,并能輔助CRC對(duì)每個(gè)CRF字段在原始文本里的記錄進(jìn)行溯源。從真實(shí)世界數(shù)據(jù)到臨床研究數(shù)據(jù)的標(biāo)準(zhǔn)化流程如圖1所示,通過對(duì)原始文本進(jìn)行分割和標(biāo)準(zhǔn)化,最終生成臨床研究數(shù)據(jù)集。

03、從真實(shí)世界數(shù)據(jù)到臨床研究數(shù)據(jù)標(biāo)準(zhǔn)轉(zhuǎn)化過程的實(shí)施
3.1 EDC和EMR分別發(fā)送CRF和患者臨床表單至ESR系統(tǒng)
eSource流程主要涉及3個(gè)系統(tǒng):EMR、ESR和EDC系統(tǒng)。EDC系統(tǒng)以CDISC ODM文件的形式傳送研究數(shù)據(jù)集和數(shù)據(jù)格式的要求,EMR系統(tǒng)則提供所需的患者電子病歷。ESR系統(tǒng)的EMR方將負(fù)責(zé)電子病歷的注釋,而ESR系統(tǒng)的EDC方將負(fù)責(zé)填寫CRF并生成可追溯的源數(shù)據(jù)以便CRC審核。
申辦方首先通過EDC系統(tǒng)將CRF以文件形式發(fā)送至ESR系統(tǒng),該文件可在ESR系統(tǒng)中呈現(xiàn)。一旦有患者入組,EMR系統(tǒng)可將受試者在研究開始后的所有電子病歷發(fā)送至ESR系統(tǒng)。
3.2 研究數(shù)據(jù)集的建模及標(biāo)簽生成
建模前須充分了解研究數(shù)據(jù)集的變量類型及其特征,之后才能同時(shí)對(duì)研究數(shù)據(jù)集中每個(gè)變量的域及屬性進(jìn)行建模。通常,多個(gè)CDISC域可以在更高水平進(jìn)行合并,且這些域往往包含相同的屬性。
建模的第1步是使用類似于比OMOP CDM的定義更為廣泛的標(biāo)準(zhǔn),包括醫(yī)療狀況發(fā)生 (condition occurrence)、操作發(fā)生(procedure occurrence)、藥物暴露(exposure occurrence)等,相當(dāng)于對(duì)分類更為詳細(xì)的CDISC域進(jìn)行了整合[12]。目的是提高標(biāo)簽的提取效率。
第2步是將屬性與域分開建模,屬性的建模不受域的限制,以避免出現(xiàn)重復(fù)使用同一屬性描述不同域的現(xiàn)象,減少標(biāo)簽數(shù)量。本研究屬性是在臨床數(shù)據(jù)獲取標(biāo)準(zhǔn)(CDASH)數(shù)據(jù)元素的類型指導(dǎo)下進(jìn)行建模。例如手術(shù)用藥(AG)和伴隨用藥(CM)中的劑量和頻率(DOSFRQ)在CDASH中建模為AG.DOSFRQ和CM.DOSFRQ,屬性DOSFRQ是公共屬性,將成為通用數(shù)據(jù)元素(common data elements,CDE)的屬性標(biāo)簽。
第3步是標(biāo)記并提取章節(jié)標(biāo)題,以明確文本的基本結(jié)構(gòu)。目前,我國的EMR還未能普及HL7 CDA類標(biāo)準(zhǔn)文檔,最主要的原因是EMR很多都是由非結(jié)構(gòu)化的沒有明確文本分段的文本數(shù)據(jù)組成。如果不對(duì)章節(jié)進(jìn)行結(jié)構(gòu)化,數(shù)據(jù)可能會(huì)丟失重要的背景信息,最終導(dǎo)致標(biāo)簽錯(cuò)誤、數(shù)據(jù)質(zhì)量下降。
3.3 模型訓(xùn)練和實(shí)體及實(shí)體間關(guān)系的提取
醫(yī)學(xué)專家和研究人員根據(jù)建模中使用的標(biāo)簽編寫了標(biāo)簽指南。標(biāo)簽也可以稱為實(shí)體。標(biāo)簽注釋工作人員由2名接受過專業(yè)訓(xùn)練的研究人員組成,使用編寫好的標(biāo)簽指南對(duì)EMR進(jìn)行注釋,包括每個(gè)域名標(biāo)簽(如藥物名稱)、屬性標(biāo)簽(如劑量和頻率),以及域名稱與屬性之間的實(shí)體關(guān)系。域名稱與屬性之間的實(shí)體關(guān)系僅限制單向關(guān)系,如從域名至屬性或是從域名到其他域名稱,實(shí)體之間不能使用雙向鏈接。使用標(biāo)簽、標(biāo)簽位置和標(biāo)簽之間的關(guān)系訓(xùn)練NLP模型。快速標(biāo)記方法是通過反復(fù)進(jìn)行以下操作:①標(biāo)記總樣本量的10%;②用樣本訓(xùn)練NLP模型;③預(yù)先標(biāo)注下一個(gè)10%的數(shù)據(jù)并進(jìn)行人工修改。當(dāng)NLP模型被認(rèn)為足夠精準(zhǔn)時(shí)迭代過程停止,可以將模型應(yīng)用在剩余的數(shù)據(jù)提取中。
在實(shí)體抽取方面,采用雙向變形編碼器(BERT)+雙向長短期記憶神經(jīng)網(wǎng)絡(luò)(BILSTM)+條件隨機(jī)場(chǎng)(CRF)的命名實(shí)體識(shí)別(named entity recognition model)[13]。實(shí)體關(guān)系抽取方面,采用生物醫(yī)學(xué)文本挖掘的雙向變形編碼器(BIO-BERT)的關(guān)系抽取模型,監(jiān)督式學(xué)習(xí)(supervised learning),并使用標(biāo)注的實(shí)體關(guān)系進(jìn)行模型優(yōu)化[14]。
3.4 生成研究專用術(shù)語庫
研究專用術(shù)語庫是指標(biāo)簽中實(shí)際提取得到的術(shù)語和標(biāo)準(zhǔn)術(shù)語之間的映射庫。建立專病領(lǐng)域研究專用術(shù)語庫,能夠同時(shí)滿足相關(guān)領(lǐng)域內(nèi)其他研究的術(shù)語標(biāo)準(zhǔn)化需求。建立研究專用術(shù)語庫需要有提取到的標(biāo)簽、CDISC ODM特定術(shù)語表(code list)以及國際標(biāo)準(zhǔn)術(shù)語[如《國際疾病分類》(第10版)(ICD-10)]。
首先將標(biāo)簽中的提取術(shù)語和CDISC代碼值整合并進(jìn)行匹配。術(shù)語匹配是通過將通用標(biāo)準(zhǔn)術(shù)語庫(如ICD-10)使用Opaki BM25的推薦算法算出每個(gè)術(shù)語中單詞的分?jǐn)?shù)、然后使用提取術(shù)語作為搜索術(shù)語、找到分?jǐn)?shù)最高的標(biāo)準(zhǔn)術(shù)語[15]。匹配完成后,每個(gè)標(biāo)準(zhǔn)術(shù)語將作為一個(gè)組,每個(gè)單獨(dú)的組將由醫(yī)學(xué)專家在術(shù)語編輯工具內(nèi)審核,對(duì)于標(biāo)準(zhǔn)術(shù)語匹配錯(cuò)誤的標(biāo)簽提取術(shù)語,需要人工手動(dòng)重新分配標(biāo)準(zhǔn)術(shù)語[16]。研究專用術(shù)語庫最終將生成一個(gè)詞匯表,包括了標(biāo)簽、標(biāo)準(zhǔn)提取術(shù)語、標(biāo)準(zhǔn)術(shù)語代碼、標(biāo)準(zhǔn)術(shù)語代碼系統(tǒng)、原始術(shù)語、原始術(shù)語代碼和原始術(shù)語代碼系統(tǒng),允許存儲(chǔ)可用于填寫CRF的預(yù)先指定CDISC代碼和值。對(duì)于標(biāo)簽不是文本類型的數(shù)據(jù),例如日期或數(shù)值標(biāo)簽,將會(huì)制定單獨(dú)的表格用于記錄每個(gè)標(biāo)簽所需的標(biāo)準(zhǔn)數(shù)據(jù)格式,這些格式由CDISC ODM文件預(yù)先指定或根據(jù)數(shù)據(jù)類型自動(dòng)分配。
3.5 實(shí)體提取后,在填充CRF之前的規(guī)范化規(guī)則
NLP模型的輸出主要有2個(gè)表,即所有提取出的標(biāo)簽值列表(實(shí)體表)和實(shí)體之間的關(guān)系列表(實(shí)體關(guān)系表)。
第1項(xiàng)任務(wù)是使用特定研究術(shù)語庫,將每個(gè)實(shí)體標(biāo)簽標(biāo)記標(biāo)準(zhǔn)值和標(biāo)準(zhǔn)標(biāo)簽類型。實(shí)體表的數(shù)據(jù)元素,包括實(shí)體ID、實(shí)體值、實(shí)體值存在文本段的位置,實(shí)體標(biāo)簽類型、實(shí)體標(biāo)準(zhǔn)代碼、實(shí)體標(biāo)準(zhǔn)值、標(biāo)準(zhǔn)標(biāo)簽類型和跟蹤數(shù)據(jù)。跟蹤數(shù)據(jù)包括患者ID、醫(yī)療報(bào)告ID、文本段ID和記錄日期。
第2項(xiàng)任務(wù)是將實(shí)體關(guān)系表轉(zhuǎn)換為基于域的單條記錄。先將關(guān)系表轉(zhuǎn)換為各自的數(shù)據(jù)籃,每個(gè)數(shù)據(jù)籃都須指定數(shù)據(jù)籃ID和主實(shí)體ID。數(shù)據(jù)籃僅限于實(shí)體間的一階關(guān)系,這意味著如果存在實(shí)體A→實(shí)體B→實(shí)體C的關(guān)系,數(shù)據(jù)籃將只包括實(shí)體A→實(shí)體B,以防止數(shù)據(jù)籃中存在復(fù)雜的嵌套關(guān)系。可能會(huì)存在一種包含多個(gè)主實(shí)體的數(shù)據(jù)籃的情況,原因是其中1個(gè)主實(shí)體是另1個(gè)主實(shí)體的適應(yīng)癥,例如1個(gè)疾病名稱是藥物名稱實(shí)體的適應(yīng)癥(圖2)。相應(yīng)的方法是將對(duì)所有主實(shí)體預(yù)先做網(wǎng)絡(luò)分析(network analysis)、將對(duì)于存在關(guān)系的主實(shí)體,標(biāo)注相應(yīng)的主實(shí)體鏈接ID,并將這種關(guān)系添加到實(shí)體關(guān)系表中。

第3項(xiàng)任務(wù)是合并相同的數(shù)據(jù)籃,使得患者的每個(gè)主實(shí)體有且只有1條記錄。EMR可能會(huì)重復(fù)提及同一個(gè)主實(shí)體的不同細(xì)節(jié),例如可能會(huì)2次提及相似的暴露名稱,且第2次提及的內(nèi)容可能包含更多有關(guān)劑量和頻率的細(xì)節(jié)。不同數(shù)據(jù)籃合并不能僅依靠主實(shí)體標(biāo)準(zhǔn)代碼和醫(yī)療報(bào)告ID的匹配,例如左眼眼壓檢查和右眼眼壓檢查的數(shù)據(jù)籃無法合并。因此,需要為每個(gè)主要的數(shù)據(jù)域(域標(biāo)簽)分別編寫規(guī)則。只有檢查名稱(主實(shí)體)和位置實(shí)體(屬性實(shí)體)以及醫(yī)療報(bào)告ID都匹配才能合并數(shù)據(jù)籃。數(shù)據(jù)籃的合并可能出現(xiàn)以下4種情況:①信息不足:是指數(shù)據(jù)籃無法體現(xiàn)其唯一性。②不同身份信息:是指在有支持不同數(shù)據(jù)籃合并的屬性實(shí)體。③沖突信息:是指可以對(duì)數(shù)據(jù)籃進(jìn)行合并但有些數(shù)據(jù)互相沖突。④可確認(rèn)信息:是指可合并的數(shù)據(jù)籃間的數(shù)據(jù)存在不同但不屬于沖突。以上4種情況中,只有可確認(rèn)信息和不同身份信息下的數(shù)據(jù)籃能夠合并,并生成最終的事實(shí)表。事實(shí)表由事實(shí)ID、主要實(shí)體ID、主要實(shí)體標(biāo)準(zhǔn)標(biāo)簽類型、實(shí)體ID、實(shí)體標(biāo)簽類型、實(shí)體標(biāo)準(zhǔn)值和跟蹤數(shù)據(jù)(醫(yī)療報(bào)告ID和章節(jié)文本位置)的元素組成。最后,事實(shí)表中根據(jù)主要實(shí)體標(biāo)準(zhǔn)標(biāo)簽類型和實(shí)體標(biāo)簽類型映射到適當(dāng)?shù)腃DISC CDASH數(shù)據(jù)元素中,用于CRF表的預(yù)填充。
04、討 論
4.1 互操作性方面的注意事項(xiàng)
改進(jìn)系統(tǒng)間的互操作性是實(shí)現(xiàn)RWD標(biāo)準(zhǔn)化的關(guān)鍵。從既往研究的經(jīng)驗(yàn)來看,確保各系統(tǒng)間傳達(dá)數(shù)據(jù)的意義一致的同時(shí)簡化審核過程,就可以實(shí)現(xiàn)互操作性。
在本研究中,EMR和EDC系統(tǒng)通過元數(shù)據(jù)標(biāo)準(zhǔn)(如HL7 CDA和CDISC ODM)傳遞數(shù)據(jù)?,F(xiàn)階段最大的障礙是醫(yī)院病歷系統(tǒng)供應(yīng)商早在制定行業(yè)標(biāo)準(zhǔn)之前就建立了自己的系統(tǒng),導(dǎo)致缺乏可用于數(shù)據(jù)交換的標(biāo)準(zhǔn)。在我國,雖然監(jiān)管機(jī)構(gòu)一直致力于推進(jìn)醫(yī)院數(shù)據(jù)互聯(lián)互通,通過對(duì)醫(yī)院數(shù)據(jù)共享能力進(jìn)行評(píng)級(jí)等方式,以期提高其運(yùn)用標(biāo)準(zhǔn)[17]。但由于醫(yī)院間數(shù)據(jù)共享活動(dòng)并不活躍,HL7 CDA標(biāo)準(zhǔn)尚未得到廣泛應(yīng)用。另一方面,CDISC ODM在EDC系統(tǒng)中作為表示CRF的方式得到了很好的實(shí)現(xiàn),但由于缺乏要求,可能會(huì)偏離CDASH標(biāo)準(zhǔn)命名方法對(duì)其數(shù)據(jù)字段的嚴(yán)格使用。ESR平臺(tái)已考慮到這些限制,特別是對(duì)于EMR數(shù)據(jù),通過標(biāo)記和提取每個(gè)報(bào)告中的章節(jié)完成基本文檔的結(jié)構(gòu)化,建立EMR文檔所需要的標(biāo)準(zhǔn)HL7形式的元數(shù)據(jù)。在本研究中,不需要對(duì)CDISC ODM文件進(jìn)一步標(biāo)準(zhǔn)化,但未來希望可以通過NLP使用CDASH標(biāo)準(zhǔn)對(duì)未標(biāo)準(zhǔn)化的CRF進(jìn)行注釋。
為了確認(rèn)數(shù)據(jù)意義是否準(zhǔn)確、是否能被研究團(tuán)隊(duì)理解,本研究關(guān)注了使CRC能夠方便審核每個(gè)CRF表格、提供可視化的溯源界面、能簡單在電子文件上簽字并發(fā)送回EDC系統(tǒng)。因?yàn)橄到y(tǒng)記錄了整個(gè)數(shù)據(jù)標(biāo)準(zhǔn)化過程,可追溯性可以通過ESR平臺(tái)得到保證,并允許CRC為每個(gè)CRF字段顯示是從臨床文檔中何處提取的。目前,本課題組正在致力于通過將臨床研究助理(CRA)和數(shù)據(jù)管理者(DM)的質(zhì)疑傳回ESR系統(tǒng),以使研究團(tuán)隊(duì)能夠?qū)υ磾?shù)據(jù)或填充的數(shù)據(jù)提出疑問,從而更好地簡化數(shù)據(jù)審核流程。
4.2 臨床研究數(shù)據(jù)建模注意事項(xiàng)
在研究標(biāo)簽的開發(fā)過程中,通過對(duì)主要實(shí)體(域名)進(jìn)行分類以及重復(fù)利用屬性實(shí)體來減少標(biāo)簽數(shù)量。采用這種簡單模型能使NLP在提取臨床文檔實(shí)體時(shí)更加高效。主要實(shí)體(域名)使用定義更廣泛的分類不僅增加了標(biāo)簽的通用性,也可通過研究專用術(shù)語庫保留原始提取術(shù)語值的特異性,以確保不會(huì)丟失原始重要信息。未來還可以從觀測(cè)指標(biāo)標(biāo)識(shí)符邏輯命名與編碼系統(tǒng)(LOINC)和臨床醫(yī)學(xué)系統(tǒng)術(shù)語(SNOMED-CT)等術(shù)語系統(tǒng)中學(xué)習(xí)更多關(guān)于不同領(lǐng)域數(shù)據(jù)辨認(rèn)實(shí)體獨(dú)特屬性的方法。由于ICD-11等標(biāo)準(zhǔn)術(shù)語的較新版本通過選擇多個(gè)屬性來識(shí)別獨(dú)特的領(lǐng)域概念,因此,也有利于未來識(shí)別標(biāo)準(zhǔn)術(shù)語代碼的方法。
為了使本模型可在未來研究中得到推廣,需要根據(jù)給定的數(shù)據(jù)收集要求和臨床研究工作流程自動(dòng)生成一個(gè)簡單標(biāo)注模型。《CDISC治療類別數(shù)據(jù)標(biāo)準(zhǔn)化指南》[18](CDISC Therapeutic Area Guideline)在總結(jié)給定治療領(lǐng)域的數(shù)據(jù)收集工作流程方面表現(xiàn)較好,可用于指導(dǎo)僅根據(jù)數(shù)據(jù)要求為每個(gè)治療領(lǐng)域自動(dòng)創(chuàng)建的簡單模型。與將標(biāo)注模型迭代聚合為更大模型的方法相比,創(chuàng)建簡單模型能避免數(shù)據(jù)生成和NLP訓(xùn)練過程中的復(fù)雜性。此外,簡單模型更容易應(yīng)用于實(shí)際研究,并能夠向研究人員解釋數(shù)據(jù)標(biāo)準(zhǔn)化的過程,而不是形成難以解釋的黑盒。未來的目標(biāo)是進(jìn)一步評(píng)估這些簡單模型在何種程度上可以推廣到其他臨床研究領(lǐng)域。
4.3 數(shù)據(jù)規(guī)范化推理注意事項(xiàng)
為了對(duì)臨床文檔中提取的實(shí)體進(jìn)行適當(dāng)?shù)耐茢啵狙芯坎扇〉拇胧┦翘岣咴磾?shù)據(jù)的完整性,并應(yīng)用一定的推斷規(guī)則確保記錄的唯一性。本方法的優(yōu)勢(shì)是能夠預(yù)先與研究人員在填寫EMR前進(jìn)行協(xié)商,促進(jìn)EMR書寫的簡潔性和完整性,實(shí)現(xiàn)高質(zhì)高效的數(shù)據(jù)提取。前瞻性數(shù)據(jù)收集的優(yōu)勢(shì)在于能夠以最佳方式指導(dǎo)研究人員記錄數(shù)據(jù)。此外,研究發(fā)現(xiàn),如果相關(guān)實(shí)體之間距離太遠(yuǎn),通常無法很好地提取實(shí)體之間的關(guān)系。提取實(shí)體和實(shí)體關(guān)系后,需要使用推理規(guī)則形成患者主實(shí)體數(shù)據(jù)的唯一記錄。網(wǎng)絡(luò)分析通過分析實(shí)體間關(guān)系來捕獲數(shù)據(jù)之間的潛在關(guān)系,以完整地合并收集數(shù)據(jù)中的詳細(xì)信息。本研究提出的具體方法是先找到主實(shí)體之間的鏈接,在對(duì)主實(shí)體是否一致進(jìn)行推斷的基礎(chǔ)上,判斷是否能將詳細(xì)信息(屬性實(shí)體)合并。為了確保主實(shí)體的一致性,提取的實(shí)體首先必須使用研究特定術(shù)語庫注釋標(biāo)準(zhǔn)代碼。目前,在研究專用術(shù)語庫的開發(fā)過程中,可能存在無法與較粗糙的標(biāo)準(zhǔn)術(shù)語字典(如ICD-10)充分匹配的現(xiàn)象,建議未來使用更全面的術(shù)語庫,如統(tǒng)一醫(yī)學(xué)語言系統(tǒng)(UMLS)[19]。然而,UMLS尚未較好地漢化,但OMAHA組織目前正在努力使用類似UMLS的方法建立一個(gè)綜合性的術(shù)語庫,以滿足術(shù)語標(biāo)準(zhǔn)化的需求[19]。一旦涉及實(shí)體間關(guān)系的分析,就需要應(yīng)用規(guī)范化規(guī)則來辨認(rèn)數(shù)據(jù)的唯一性質(zhì)。優(yōu)化主實(shí)體唯一性質(zhì)及相關(guān)屬性的推斷需要進(jìn)行更廣泛的討論,可能需要開發(fā)一種聯(lián)合算法,例如結(jié)合網(wǎng)絡(luò)分析及機(jī)械學(xué)習(xí)的方案。規(guī)范化規(guī)則的優(yōu)化對(duì)于未來臨床決策支持系統(tǒng)的開發(fā)具有重大作用,但也必須先從可靠與簡潔的源數(shù)據(jù)標(biāo)準(zhǔn)化工作開始。

來源:中國食品藥品監(jiān)管雜志