您當前的位置:檢測資訊 > 科研開發(fā)
嘉峪檢測網(wǎng) 2022-01-25 22:28
摘要
目的:為科學設計醫(yī)療器械的臨床試驗,合理選擇試驗樣本含量。方法:利用統(tǒng)計方法對醫(yī)療器械臨床試驗的樣本含量計算進行探討。并結合一些案例進行分析。結果∶提供了常用統(tǒng)計參數(shù)的樣本含量查詢表,所提出的計算方法經(jīng)驗證方便可行。結論∶醫(yī)療器械臨床試驗樣本含量可通過查詢表方式快捷獲取。
關鍵詞:樣本量;臨床試驗;醫(yī)療器械
1 引言
隨著我國科學技術和醫(yī)療衛(wèi)生事業(yè)的發(fā)展,醫(yī)療器械臨床試驗開展得越來越多,基于臨床藥理基地的試驗研究也需要進一步科學和規(guī)范。在臨床試驗研究中,一個重要的問題就是如何科學合理地確定試驗樣本含量。樣本量的計算涉及諸多參數(shù)的確定,在臨床醫(yī)學研究中需要根據(jù)研究目的、研究要求和研究資料來具體決定。目前,一些醫(yī)療器械臨床試驗的樣本量參照國家主管部門提供的參考值,未充分考慮各自具體情況和要求,這在一定程度上給研究結果的可靠性和可信度帶來影響。本文將對醫(yī)療器械臨床試驗的樣本含量計算方法進行探討,并結合一些案例進行分析,以期對越來越多的醫(yī)療器械臨床試驗設計和產(chǎn)品注冊有所幫助。
2 樣本量計算的影響因素
2.1 資料性質(zhì)
臨床試驗統(tǒng)計分析方法的選用以及樣本含量的計算,是與試驗數(shù)據(jù)資料類型密切相關的。醫(yī)療器械臨床試驗的數(shù)據(jù)資料可分為計量資料和計數(shù)資料、分別為定量觀察和定性觀察。一般而言。在其他參數(shù)要求相同條件下,計數(shù)資料較計量資料樣本含量大。
2.2 設計類型
主要有 3種類型的設計:一種為優(yōu)效性設計,另一種為非劣效性設計,還有一種為等效性設計。優(yōu)效性/非劣效性試驗關心的問題是單側(cè)的,對試驗組可能優(yōu)出的程度未加限制。而等效性試驗關心的問題則是雙側(cè)的,對試驗組和對照組的優(yōu)劣并不關心,只在乎其組間的差別。一般而言,采用統(tǒng)計學檢驗時,當研究結果高于和低于效應指標的界限均有意義時,應該選擇雙側(cè)檢驗,所需樣本量就大;當研究結果僅高于或低于效應指標的界限有意義時,應該選擇單側(cè)檢驗,所需樣本量就小。
2.3 顯著性水平
即假設檢驗Ⅰ類錯誤出現(xiàn)的概率(α),為假陽性錯誤出現(xiàn)的概率。α越小,所需的樣本量越大,反之越小。α水平由研究者根據(jù)研究資料具體決定,通常取 0.1、0.05或 0.01。
2.4 檢驗效能
檢驗效能又稱把握度(power),把握度的概念與Ⅱ型錯誤水平β相對應,power=1-β。因此指定了β水平也就等于指定了把握度水平。β水平由研究者根據(jù)研究資料具體決定,目前,在醫(yī)療器械臨床試驗研究中,α取0.05或0.1,相應的β取0.2或0.1均可被接受。
2.5 界值
界值即容許誤差,指可從臨床意義角度判定差異的最小值。界值的確定需根據(jù)已有的文獻數(shù)據(jù),設計類型及數(shù)據(jù)的分布類型,從臨床認識水平及成本效益來綜合考慮,將統(tǒng)計學推理和臨床判斷相結合。界值確定必須在試驗設計階段完成并在試驗方案中闡明。當界值難以確定時,對均值比較可酌取 1/5~1/2個標準差或?qū)φ战M均數(shù)的1/10~1/5 等;對2組率而言,建議取 15% 以下的值,通常最大不超過對照組樣本率的1/5。
2.6 總體標準差或總體率
分別反映計量數(shù)據(jù)和計數(shù)數(shù)據(jù)的變異程度。一般根據(jù)前人經(jīng)驗或文獻報道進行估計。如果沒有前人經(jīng)驗或文獻報道作為依據(jù),可通過預實驗取得樣本的標準差s或樣本率p分別作為總體標準差 σ或總體率π的估計值。
2.7 樣本分配
經(jīng)常使用的是試驗組和對照組等樣本含量設計。相等的樣本含量可使總的樣本含量最少,而且在同等的總樣本含量下可達到最高的統(tǒng)計效能。
2.8 其他因素
常見影響臨床試驗樣本量的因素還有不依從和失訪等樣本脫落的問題。因此,在實際應用中應根據(jù)具體試驗資料情況,在試驗設計階段考慮脫落因素,適當增加樣本含量。
3 樣本量的計算方法
為方便表述,以下所用到的符號作統(tǒng)一規(guī)定。T和S分別代表試驗組和對照組,也泛指相應組的參數(shù);δ代表界值;s代表標準差;N代表樣本量。并假定定量指標服從正態(tài)分布,二分類率指標服從二項分布。
考慮通用性,單側(cè)檢驗非劣效/優(yōu)效設計的樣本量計算如下∶

其中,w為試驗組樣本量占樣本總量的比例,α與β分別為可允許的最大I、Ⅱ類錯誤水平, 圖片 和 圖片 。表示對應于α、β的標準正態(tài)分布百分位數(shù)(常用的標準正態(tài)百分位數(shù)如表1所示), 圖片 表示總體方差,N為試驗組和對照組總的樣本含量。一般而言,試驗組和對照組采用等樣本含量,因此常取 w=0.5。另外,σ一般難以獲得,對于計量資料,常用兩樣本合并標準差s代替;對于計數(shù)資料,有圖片=π(1-π),π為二分類指標的總體率,也常用樣本率p來代替。

由于優(yōu)效設計樣本量計算與非劣效設計的方法基本相同,以下僅討論非劣效設計的樣本量計算,對于優(yōu)效設計的樣本量計算不再贅述。
3.1 非劣效設計的計量資料
對于非劣效設計的計量資料,按單側(cè)檢驗水平 α,把握度(1-β),在樣本量T=S條件下(即 w=0.5),試驗所需樣本總量可按公式(3)計算,式中s為兩樣本合并標準差,δ為界值。表2為根據(jù)一般顯著水平參數(shù)計算得到的樣本含量。

3.2 非劣效設計的計數(shù)資料
對于非劣效設計的計數(shù)資料,按單側(cè)檢驗水平α,把握度(1-β),在樣本量T=S條件下(即 w=0.5),試驗所需樣本總量可按公式(4)計算,式中p為兩樣本共同有效率,δ為界值。表3為根據(jù)一般顯著水平參數(shù)計算得到的樣本含量。

3.3 等效設計的計量資料
對于等效設計的計量資料,按單側(cè)檢驗水平α,把握度(1-β),在樣本量T=S條件下(即 w=0.5),試驗所需樣本總量可按公式(5)計算,式中s為兩樣本合并標準差,δ為界值。表4為根據(jù)一般顯著水平參數(shù)計算得到的樣本含量。

3.4 等效設計的計數(shù)資料
對于等效設計的計數(shù)資料,按單側(cè)檢驗水平α,把握度(1-β),在樣本量 T=S條件下(即w=0.5),試驗所需樣本總量



可按公式(6)計算,式中p為兩樣本共同有效率,δ為界值。表5為根據(jù)一般顯著水平參數(shù)計算得到的樣本含量。


4 應用舉例
例1;某電子血壓計進行臨床驗證,與傳統(tǒng)汞柱式血壓計進行配對對照試驗,按非劣效設計,基于臨床和統(tǒng)計學的綜合考慮,取α=0.05,β=0.2,δ=0.67kPa,試驗組和對照組樣本量n 取多大合適?
由預實驗可以獲得樣本標準差s=1.54 kPa。依據(jù)公式(3)可得∶

即表示∶每組用66 例試驗對象,可有 80% 把握度,在α=0.05的顯著性水平及非劣效界值為0.67 kPa的情況下得到試驗組不差于對照組的結論。
若采用等效性設計,則依據(jù)公式(5)可得;

即表示;每組用91例試驗對象,可有 80% 把握度,在 α=0.05的顯著性水平及等效界值為0.67 kPa 的情況下得到試驗組等效于對照組的結論。
例 2;某新型碎石機進行臨床試驗,與舊款機型按1∶1 比例隨機分配試驗對象,觀察新型碎石機的碎石率是否不差于老款機型。根據(jù)臨床資料及一般統(tǒng)計學要求,取 α=0.05,β=0.1,δ=15%,平均碎石率p=80%,試驗組和對照組樣本量 n 取多大合適?
直接查閱表3,可得N=243.7,故 n=N/2=122。即;每組用122例試驗對象,可有90% 把握度,在 α=0.05的顯著性水平及非劣效界值為 15%的情況下得到試驗組不差于對照組的結論。
若按等效性設計,查閱表5有n=154,即每組用154 例試驗對象,可有90% 把握度,在 α=0.05的顯著性水平及等效界值為15% 的情況下得到試驗組與對照組等效的結論。
需說明的是,以上例題中樣本量均未考慮脫落因素。
5 討論
本文根據(jù)試驗設計資料的性質(zhì)對醫(yī)療器械臨床試驗的樣本含量進行了分析和計算,并針對常用的參數(shù)列出了樣本含量計算式和查詢表。從表2~5的計算結果可以看出,β越小(即把握度(1-β)越大),試驗所需樣本量越大。對于一定的 α和β,只要試驗設計資料的類型確定,試驗樣本量計算的系數(shù)G就可以確定下來,其余決定樣本量大小的參數(shù)主要是界值δ與標準差(對于計量資料)或樣本率p(對于計數(shù)資料)。因此,統(tǒng)計檢驗類型的設計是樣本量計算的先決條件本文未對優(yōu)效性試驗的樣本量單獨進行計算,因為優(yōu)效性試驗設計與非劣效設計均為單側(cè)檢驗,其計算公式相同,區(qū)別僅僅在于界值δ會有差異。若其他參數(shù)相同,對于優(yōu)效性試驗,其界值往往小于非劣效設計的界值,即可評估試驗組有效。從公式(3)或(4)可見,δ越小,樣本量越大。因此,一般而言,優(yōu)效性設計樣本量大于非劣效設計的樣本量。
對于非劣效和等效設計,在條件相同時,等效設計的樣本量大于非劣效。圖1給出了計量資料的某特定條件下非劣效和等效設計的樣本含量變化曲線。圖中,非劣效α=0.05,β=0.1的樣本量曲線與等效α-0.05,β-0.2的曲線重合,因為非劣效是單側(cè)檢驗,等效是雙側(cè)檢驗,其最終的樣本量計算系數(shù)G相同。從圖1可見,

相同條件下,非劣效樣本量小于等效,必δ/s越大,樣本量越小。
檢驗顯著性水平和檢驗效能是決定樣本量大小的關鍵因素,即對應于統(tǒng)計推斷的I型錯誤α和Ⅱ型錯誤β。α和β是相互關聯(lián)的,在樣本量一定條件下,α越小,β就越大;反之,α越大,β則越小。若想同時減小α和β,唯一的辦法就是增加樣本量。一般為了均衡,α取0.1、0.05或0.01;β取0.2、0.1或0.05。而且,無特殊情況,α取0.05,β取0.2能被認可,故本文主要針對常用的α=0.05,β=0.2 進行計算。
需再次強調(diào)的是,進行非劣性/等效性檢驗時,需預先確定界值δ,這個界值應不超過臨床上能接受的最大差別范圍。界值的確定需要由主要研究者與生物統(tǒng)計人員共同商討確定。嚴格講,非劣性/等效性試驗的標準,如樣本含量以及估計樣本含量用的δ、α、β等,都要在設計階段確定。界值確定必須在試驗設計階段完成并在試驗方案中闡明。
樣本可能的脫落也是試驗設計階段應該考慮到的。試驗對象入組的難易、依從性以及截尾因素等需要多方面權衡。而且.對數(shù)據(jù)要求的苛刻程度也需要把握,因為要求越苛刻.該試驗對象試驗數(shù)據(jù)被剔除的可能性越大。一般而言,試驗設計中實際樣本量需在計算得出的樣本量基礎上增加 10%~20%,如果試驗條件較苛刻,應該適當增加此比例。
需要注意的是,樣本量N在不同環(huán)境下的意義。有時它是指試驗組和對照組的總樣本量,有時它特指某一組的樣本量,而且對于配對試驗設計,它還可能指配對樣本量的對數(shù)。另外,目前醫(yī)療器械臨床試驗一般要求進行多中心的試驗,那N是指多中心總的樣本量還是某個分中心的樣本量也需要特別留意。本文所提供計算公式中的N是指多中心試驗組和對照組總的樣本含量。
目前有許多軟件支持樣本量的計算,如 SAS等。充分利用這些軟件也是一種有效途徑,但前提是對軟件必須充分了解,特別是軟件設置中各個參數(shù)的實際意義,否則容易犯錯。
總之,醫(yī)療器械臨床試驗的樣本量與諸多因素相關.其中主要包括檢驗設計、顯著性水平、把握度和臨床界值。本文主要就有關統(tǒng)計學方面的問題進行了探討,提出了樣本量的簡單計算方法和一套快捷查詢表,并對樣本量計算的影響因素進行了分析,其他試驗過程中的實際問題超出本文范圍,需在實際操作中具體分析。

來源:醫(yī)療衛(wèi)生裝備·2012年7月第