您當(dāng)前的位置:檢測(cè)資訊 > 科研開(kāi)發(fā)
嘉峪檢測(cè)網(wǎng) 2021-12-08 20:41
摘要:目的 探討科研設(shè)計(jì)中, 計(jì)算樣本含量時(shí)所需條件不足情形下的應(yīng)對(duì)措施。方法 結(jié)合實(shí)例提出問(wèn)題, 利用PASS11 軟件解決問(wèn)題。結(jié)果 通合理設(shè)置參數(shù)取值范圍來(lái)計(jì)算樣本含量時(shí)所需條件不足的問(wèn)題;采用 Heish提出的方法應(yīng)對(duì) Logistic 回歸協(xié)變量信息不足的問(wèn)題;采用Lakatos 法應(yīng)對(duì)生存分析樣本含量計(jì)算時(shí)生存時(shí)間分布未知等問(wèn)題。
結(jié)論 在科研設(shè)計(jì)中, 靈活地使用 PASS11 軟件可以解決樣本含量計(jì)算所需條件不足的一些問(wèn)題, 但還有部分問(wèn)題尚待深入研究。
醫(yī)學(xué)科研設(shè)計(jì)階段不可避免地要估計(jì)樣本含量。高估樣本量將會(huì)導(dǎo)致研究成本的增加, 同時(shí)會(huì)使暴露于危險(xiǎn)性處理的受試者數(shù)量增加, 并且會(huì)導(dǎo)致研究周期的延長(zhǎng);樣本量的低估會(huì)導(dǎo)致研究因?yàn)闄z驗(yàn)效能不足, 而沒(méi)有發(fā)現(xiàn)總體間實(shí)際存在的差異 [ 1 ] 。故適量的樣本含量, 既能滿足醫(yī)學(xué)科研的要求, 又能最大限度控制研究成本和研究風(fēng)險(xiǎn), 保證研究效率。
科學(xué)研究中, 保證所估計(jì)的樣本含量適當(dāng)取決于很多因素。眾所周知的基本影響因素有:檢驗(yàn)水準(zhǔn) α 、 檢驗(yàn)效能 1-β 、 個(gè)體間的變異 σ 、 允許誤差 δ 以及單雙側(cè)檢驗(yàn) [ 2 ] , 其他的影響因素與具體的設(shè)計(jì)類(lèi)型有關(guān)。通常計(jì)算樣本含量時(shí), 都是已知以上的影響因素, 使用公式或者軟件來(lái)計(jì)算樣本含量, 但是在實(shí)際的科研設(shè)計(jì)階段, 尤其是創(chuàng)新性的研究中, 有些參數(shù)即使通過(guò)查閱既往文獻(xiàn)也未必能完全獲得或者無(wú)法進(jìn)行預(yù)試驗(yàn)來(lái)獲得, 面對(duì)這些情況, 該如何計(jì)算樣本含量呢?
本研究將結(jié)合科研工作者在研究設(shè)計(jì)階段計(jì)算樣本含量時(shí)面臨的一些困惑, 結(jié)合實(shí)例提出問(wèn)題, 并借助 PASS11 軟件提出解決問(wèn)題的方法。
1 計(jì)算樣本含量所需條件不能精確取值問(wèn)題的解決
實(shí)例 某醫(yī)生欲比較腫瘤患者在接受新的治療方案后與接受目前常規(guī)治療方案后不同生存曲線的差異, 將花費(fèi) 1 年時(shí)間來(lái)招募受試對(duì)象, 其后對(duì)患者的生存狀況進(jìn)行為期 4 年的隨訪。過(guò)去的臨床研究經(jīng)驗(yàn)表明對(duì)照組的 4 年生存率為 0.2 , 實(shí)驗(yàn)組和對(duì)照組每年的失訪率和非依從率大概分別為 5% 和 4% ,試估計(jì)在檢驗(yàn)水準(zhǔn)為 0.05 , 檢驗(yàn)效能為 0.8 的情況下, 需樣本含量為多少?
該研究欲在設(shè)計(jì)階段計(jì)算出區(qū)分不同生存曲線差異的樣本量, 利用 PASS11 軟件計(jì)算需要的參數(shù)有檢驗(yàn)水準(zhǔn), 檢驗(yàn)效能, 對(duì)照組的生存率, 風(fēng)險(xiǎn)比, 生存時(shí)間, 病例招募時(shí)間, 研究對(duì)象入組方式, 總的研究時(shí)間, 失訪率和非依從率, 在上例中只有風(fēng)險(xiǎn)比這個(gè)參數(shù)是未知的, 通過(guò)查閱文獻(xiàn), 發(fā)現(xiàn)各文獻(xiàn)中的風(fēng)險(xiǎn)比都是不同的, 在計(jì)算樣本含量時(shí)取任何一篇文獻(xiàn)中的風(fēng)險(xiǎn)比作為樣本含量估計(jì)的參數(shù)都不合理。此時(shí),可以利用文獻(xiàn)資料得到一個(gè)風(fēng)險(xiǎn)比所在的范圍, 如文獻(xiàn)研究顯示其風(fēng)險(xiǎn)比在 0.25 到 0.75 范圍之間。于是本研究中, 選擇 PASS11 中的Logrank Tests ( Lakatos ) 模塊進(jìn)行計(jì)算, 在模塊對(duì)應(yīng)的窗口輸入已知的參數(shù)取值, 其中風(fēng)險(xiǎn)比 ( HR ) 項(xiàng), 設(shè)置為:0.25 to0.75 by 0.05 , 其含義為風(fēng)險(xiǎn)比從 0.25 到 0.75 之間每間隔 0.05取值 1 次, 這樣, 可得到不同風(fēng)險(xiǎn)比時(shí)所需樣本含量, 見(jiàn)表 1 。


由表 1 和圖 1 可以得出, 樣本含量隨風(fēng)險(xiǎn)比的增大而逐漸增大, 而且增長(zhǎng)的速度也在逐漸增大。此時(shí), 該如何確定樣本含量呢?筆者有以下幾點(diǎn)建議:( 1 ) 若研究經(jīng)費(fèi)充足,且在設(shè)計(jì)的研究期限中能收集到足夠的樣本, 建議選取最大的樣本含量, 對(duì)本例, 即 338 例;( 2 ) 以研究期限內(nèi)預(yù)期能收到的樣本例數(shù)記作樣本含量, 同時(shí)把表 1 附在研究設(shè)計(jì)中予以解釋說(shuō)明。
此外, 樣本含量估計(jì)時(shí), 當(dāng)兩個(gè)或多個(gè)參數(shù)存在不確定性時(shí), 也可采用上述類(lèi)似的辦法給出隨著參數(shù)變化時(shí)樣本含量的變化范圍。如上例中, 當(dāng)期望的檢驗(yàn)效能的取值為 0.8 到 0.9時(shí), 可在 PASS11 中設(shè)置檢驗(yàn)效能 0.8 to 0.9 by 0.05 , 即檢驗(yàn)效能取 0.8 , 0.85 , 0.9 , 此時(shí)若風(fēng)險(xiǎn)比仍按 0.25 到 0.75 間每隔0.05 取值, 可得到 3×11 = 33 個(gè)樣本含量, 見(jiàn)圖 2 。

2 Logistic 回歸樣本含量計(jì)算時(shí)協(xié)變量信息缺失問(wèn)題的解決
多因素分析時(shí), 樣本含量的估計(jì)常常是令科研工作者困擾的問(wèn)題。通常大家采取的辦法是, 取研究中擬納入的協(xié)變量個(gè)數(shù)的 10~15 倍作為樣本含量的估計(jì)值。但大家應(yīng)該注意, 這個(gè)條件僅滿足了多因素分析數(shù)學(xué)運(yùn)算所需的最低要求, 但不能保證足夠的檢驗(yàn)效能;此外, 當(dāng)研究設(shè)計(jì)階段對(duì)協(xié)變量信息認(rèn)識(shí)不全面時(shí), 也給樣本含量的估計(jì)帶來(lái)了困難。
遇到以上的問(wèn)題, 以 Logistic 回歸為例, Heish [ 3 ] 提出使用方差膨脹因子來(lái)調(diào)整單個(gè)協(xié)變量計(jì)算出來(lái)的樣本含量為多因素分析時(shí)所用,
如下式:

其中 N 是根據(jù)一個(gè)協(xié)變量計(jì)算出的樣本量, ρ 為該協(xié)變量與余下 m-1 個(gè)協(xié)變量的復(fù)相關(guān)系數(shù), N m 是校正后的 m 個(gè)協(xié)變量計(jì)算出的樣本含量。
具體的實(shí)現(xiàn)可以通過(guò)樣本含量計(jì)算軟件 PASS11 , 根據(jù)單個(gè)協(xié)變量的基本信息, 將計(jì)算所需要的參數(shù)輸入到對(duì)應(yīng)模塊的窗口中, 通常所需要的參數(shù)主要有檢驗(yàn)水準(zhǔn) α , 檢驗(yàn)效能 1-β , 基線發(fā)病率 P0 , 比值比 OR , 目標(biāo)協(xié)變量對(duì)其他協(xié)變量作回歸時(shí)的決定系數(shù) R 2 , 由這些參數(shù)可以直接計(jì)算出校正后的樣本含量 N m , 這樣既準(zhǔn)確又便捷, 省去了使用公式計(jì)算的繁瑣和復(fù)雜。下面結(jié)合實(shí)例來(lái)說(shuō)明。
實(shí)例 一項(xiàng)探討創(chuàng)傷后應(yīng)激障礙和觀看包含暴力內(nèi)容后心率之間關(guān)系的研究, 已知心率是符合正態(tài)分布的, 心率對(duì)其他協(xié)變量作回歸時(shí)的決定系數(shù)為 0.2 , 該疾病在士兵中的發(fā)生率為 7% , 求在檢驗(yàn)水準(zhǔn)為 0.05 , 檢驗(yàn)效能為 0.8 的情況下比值比達(dá)到 3 時(shí)的樣本含量。
該研究已知一個(gè)協(xié)變量的信息, 在不知道其他協(xié)變量信息的情況下, 可以利用該協(xié)變量與余下協(xié)變量的復(fù)相關(guān)系數(shù)來(lái)計(jì)算樣本含量, 選擇 PASS11 中的 Logistic Regression 模塊, 在對(duì)應(yīng) 的 窗 口 中 輸 入 已 知 的 參 數(shù) 取 值 , 其 中 :基 線 發(fā) 病 率 P0( Baseline Probability that Y = 1 ) :0.07 , 比 值 比 Odds Ratio( Odds1/Odds0 ):3 , 心率對(duì)其他協(xié)變量作回歸時(shí)的決定系數(shù)R-Squared of x1 with Other X's :0.2 , 點(diǎn)擊運(yùn)行按鈕, 計(jì)算出樣本含量為 124 。
在上述的 Logistic 回歸的樣本含量計(jì)算中, 在已知一個(gè)協(xié)變量信息的情況下, 還需知道該協(xié)變量與其他協(xié)變量的復(fù)相關(guān)系數(shù), 如何準(zhǔn)確獲得復(fù)相關(guān)系數(shù), 也是今后值得深入研究的一個(gè)課題。
3 生存分析中生存時(shí)間分布未知時(shí)樣本含量的估計(jì)
隨訪資料生存分析中樣本含量估計(jì)時(shí), 常假設(shè)生存時(shí)間服從指數(shù)分布 [ 4 ] , Lachin-Foulkes 法是指數(shù)分布樣本量測(cè)定方法的典型代表 [ 5 ] 。但醫(yī)學(xué)實(shí)踐中, 常見(jiàn)到生存時(shí)間不服從指數(shù)分布 , 甚至無(wú)法確定生存時(shí)間分布的情 形, 此時(shí)若仍使用Lachin-Foulkes 法估計(jì)樣本含量, 就會(huì)出現(xiàn)偏差。
1988 年, Lakatos 提出的方法 [ 6 ] 則可解決生存時(shí)間不符合指數(shù)分布, 且分布類(lèi)型未知時(shí)樣本含量的估計(jì)問(wèn)題。該方法利用馬爾科夫模型對(duì)每一個(gè)具體的隨訪過(guò)程擬合出一個(gè)獨(dú)特的生存過(guò)程, 其中在各時(shí)段風(fēng)險(xiǎn)率, 刪失率和病人的依從性都可以不同。陳素領(lǐng)等人曾介紹了該方法運(yùn)用馬爾科夫模型來(lái)進(jìn)行樣本含量計(jì)算的原理, 并用 VB 語(yǔ)言編寫(xiě)了計(jì)算程序, 給出了常見(jiàn)情況下的樣本含量速查表, 方便讀者查閱 [ 4 ] 。目前, PASS11軟件中已經(jīng)具備了 Lakatos 計(jì)算模塊, 可以在模塊中輸入相應(yīng)的參數(shù)取值, 就無(wú)需了解生存時(shí)間的具體分布類(lèi)型, 同時(shí)也避免了煩瑣的編程計(jì)算過(guò)程, 可以讓醫(yī)學(xué)工作者很方便地計(jì)算出樣本量, 下面結(jié)合實(shí)例來(lái)說(shuō)明在 PASS11 軟件中對(duì)這類(lèi)問(wèn)題的實(shí)現(xiàn)。
實(shí)例 某研究者欲采用平行對(duì)照的臨床試驗(yàn)來(lái)比較某新療法與相對(duì)標(biāo)準(zhǔn)療法治療某疾病的生存過(guò)程。已知標(biāo)準(zhǔn)療法 2 年生存率為 50% 。該研究預(yù)期用 1 年時(shí)間來(lái)招募患者, 其后進(jìn)行為期 2 年的隨訪, 文獻(xiàn)提示新療法和標(biāo)準(zhǔn)療法的年失訪率和非依從率大概分別為 5% 和 4% 。研究者預(yù)計(jì)新療法 2 年生存率可達(dá) 70% , 請(qǐng)估計(jì)樣本含量。
上例中, 試驗(yàn)組和對(duì)照組之間是相互獨(dú)立的, 若新療法的療效消長(zhǎng)幅度與標(biāo)準(zhǔn)療法不同步, 且兩療法療效消長(zhǎng)幅度比例不恒定, 即不滿足生存時(shí)間服從指數(shù)分布的假定 [ 7 ] , 若此時(shí)不知道生存時(shí)間符合什么分布, 可采用 Lakatos 法估計(jì)樣本含量。
在 PASS11 中, Log-rank 檢驗(yàn)中包括 Lakatos 模塊, 將上例中對(duì)應(yīng)的參數(shù)取值輸入到相應(yīng)模塊中去, 其中對(duì)照組的生存率 S1 ( Proportion surviving-control ):0.5 , 實(shí)驗(yàn)組的生存率 S2( Proportion surviving-treatment ):0.7 , 生存 時(shí) 間 T0 ( SurvivalTime ):2 , 招募研究對(duì)象的時(shí)間 Accrual Time :1 , 研究對(duì)象的入組方式 Accrual Pattern :Equal ( equal 表示研究對(duì)象是隨時(shí)間均勻入組的), 研究的總時(shí)間 Total Time :3 ;由于隨訪研究中經(jīng)常會(huì)出現(xiàn)失訪和不依從的現(xiàn)象, 故 PASS11 模塊中設(shè)置有實(shí)驗(yàn)組和對(duì)照組的失訪率以及非依從率這 2 個(gè)參數(shù)項(xiàng), 非依從性包括隨訪對(duì)象從實(shí)驗(yàn)組進(jìn)入到對(duì)照組和隨訪對(duì)象從對(duì)照組進(jìn)入的實(shí)驗(yàn)組這 2 種情況, 通過(guò)以上 2 項(xiàng)參數(shù)的設(shè)置會(huì)使得計(jì)算出的樣本含量更符合隨訪實(shí)際情況, 從而達(dá)到更精確的目的。上例即通過(guò)文獻(xiàn)查閱的方式獲得新療法和標(biāo)準(zhǔn)療法 2 組的年失訪率和非依從率, 輸入以上參數(shù)后點(diǎn)擊運(yùn)行按鈕, 就可以計(jì)算出其樣本含量:在檢驗(yàn)效能為 0.9 時(shí), 實(shí)驗(yàn)組和對(duì)照組的樣本含量分別為 130 ;在檢驗(yàn)效能為 0.8 時(shí), 實(shí)驗(yàn)組和對(duì)照組的樣本含量分別為 98 。
4 討論
當(dāng)前, 針對(duì)樣本含量計(jì)算的研究很多, 但大多數(shù)研究關(guān)注樣本含量計(jì)算方法的改進(jìn)探討, 如吳艷喬等人提出使用 O/E法估計(jì)樣本含量 [ 8 ] , 李賢等人利用單因素裂區(qū)方差分析模型建立了兩個(gè)和多個(gè)處理組重復(fù)測(cè)量設(shè)計(jì)所需樣本含量的公式 [ 9 ] ,路浩等人提出用迭代非中心法來(lái)計(jì)算 Log rank 檢驗(yàn)所需樣本含量 [ 10 ] ;少數(shù)針對(duì)樣本含量計(jì)算的實(shí)際應(yīng)用的文獻(xiàn)也多側(cè)重于軟件介紹, 如姚嵩坡等人使用 SAS 對(duì)假設(shè)檢驗(yàn)中檢驗(yàn)效能計(jì)算的實(shí)現(xiàn) [ 11 ] , 郭靜等人提出利用 PASS2000 估計(jì)臨床試驗(yàn)期中分析效能及樣本大小 [ 12 ] 。
本文立足于從非衛(wèi)生統(tǒng)計(jì)專業(yè)的科研工作者的角度, 針對(duì)醫(yī)學(xué)科研工作者在研究設(shè)計(jì)階段計(jì)算樣本含量時(shí)常見(jiàn)的困惑,提出相應(yīng)的解決辦法??蒲性O(shè)計(jì)時(shí), 特別是創(chuàng)新性研究時(shí), 常遇到計(jì)算樣本含量的條件不足的情況, 若不進(jìn)行充分考慮, 而隨意選取計(jì)算樣本含量的參數(shù), 會(huì)導(dǎo)致整個(gè)研究的失敗, 浪費(fèi)科研經(jīng)費(fèi)和科學(xué)家的研究生命。本文提出的方法, 解決了科研工作者的實(shí)際困難, 也使得樣本含量的計(jì)算更符合醫(yī)學(xué)實(shí)踐。例如在實(shí)際臨床試驗(yàn)研究中, 一般都是將隨訪時(shí)間劃分為若干個(gè)區(qū)間, 然后在每個(gè)區(qū)間的開(kāi)始或者結(jié)束時(shí)對(duì)受試者進(jìn)行觀察[ 4 ] 。上文介紹的 Lakatos 方法也是將隨訪區(qū)間等分為 N 個(gè)區(qū)間, 這與臨床隨訪研究的實(shí)際情況是相符合的。此外, 醫(yī)學(xué)科研中大家可能還會(huì)遇到以下情況:由于受限于現(xiàn)實(shí)條件, 比如預(yù)算經(jīng)費(fèi)有限, 調(diào)查對(duì)象數(shù)量受限等等, 實(shí)際收集到的樣本量與通過(guò)公式或軟件計(jì)算出來(lái)的樣本量有差距, 但是又不知道收集到樣本含量使研究得出陽(yáng)性結(jié)果的把握度有多大, 這時(shí)候可以計(jì)算在目前情況下所能獲得的樣本含量對(duì)應(yīng)的檢驗(yàn)效能能夠達(dá)到多少, 如果檢驗(yàn)效能仍然可以達(dá)到 0.8 以上, 說(shuō)明對(duì)研究結(jié)果判斷的可靠程度還是比較大的。
以上所討論的樣本含量的估計(jì)均是固定樣本含量設(shè)計(jì)的情形, 即在研究設(shè)計(jì)之初確定樣本含量, 并在全部研究對(duì)象完成研究之后進(jìn)行統(tǒng)計(jì)分析。但是對(duì)于某些醫(yī)學(xué)臨床試驗(yàn), 如果不論研究中發(fā)生什么情況,都需完成所有樣本含量再進(jìn)行評(píng)估,可能無(wú)法最大限度保護(hù)參加試驗(yàn)的患者的利益 [ 13 ] ;為此, 成組序貫設(shè)計(jì) [ 14 ] 和適應(yīng)性設(shè)計(jì) [ 15 ] 樣本含量的估計(jì)應(yīng)運(yùn)而生了, 如Hersey 等人報(bào)道的牛痘病毒裂解液治療高危黑色素瘤的臨床試驗(yàn)中, 由于期中分析時(shí)發(fā)現(xiàn)對(duì)照組的生存率明顯高于預(yù)計(jì), 于是研究者根據(jù)期中分析的信息對(duì)樣本含量進(jìn)行了調(diào)整 [ 16 ] ;To等人報(bào)道的一項(xiàng)評(píng)價(jià)宮頸內(nèi)口縫合術(shù)預(yù)防早產(chǎn)的效果的研究中, 在期分析時(shí)由于療效差異小于預(yù)期故對(duì)樣本量進(jìn)行了調(diào)整 [ 17 ] 。不過(guò), 當(dāng)前關(guān)于此類(lèi)設(shè)計(jì)樣本含量的估計(jì)僅限應(yīng)用于設(shè)計(jì)類(lèi)型比較簡(jiǎn)單的試驗(yàn)研究, 要推廣到較復(fù)雜的科學(xué)研究中尚待時(shí)機(jī)。
作者:趙健, 龔婷婷, 范肖肖, 姚科, 朱彩蓉
(四川大學(xué)華西公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計(jì)教研室, 四川 成都 610041 )

來(lái)源:Internet