臨床研究缺失數據處理(lǐ): 詳解NEJM頂級論文(IF=158)的(de)統計學方法

欄目:臨床SCI 發布時(shí)間:2024-09-02
解讀NEJM論文的(de)一篇臨床試驗缺失數據處理(lǐ)方法。

”數據缺失是困擾臨床研究的(de)心頭大(dà)患,急得(de)研究者抓耳撓腮。數據缺失如此多(duō)嬌,引無數計算(suàn)機學者、數學家、醫學家競折腰。今天我們就來(lái)看看一篇發表在頂級大(dà)刊NEJM上的(de)結局多(duō)重插補文章(zhāng)。

解讀NEJM論文的(de)一篇臨床試驗缺失數據處理(lǐ)方法。

”數據缺失是困擾臨床研究的(de)心頭大(dà)患,急得(de)研究者抓耳撓腮。數據缺失如此多(duō)嬌,引無數計算(suàn)機學者、數學家、醫學家競折腰。今天我們就來(lái)看看一篇發表在頂級大(dà)刊NEJM上的(de)結局多(duō)重插補文章(zhāng)。

2023年12月(yuè)28日,一篇題"Restrictive or liberal transfusion strategy in myocardial infarction and anemia"的(de)臨床RCT研究論文發表于《The New England journal of medicine》(一區(qū)top,IF=158.5),作者爲美(měi)國羅格斯大(dà)學Jeffrey L Carson團隊。這(zhè)項研究納入3504名有心肌梗死伴貧血的(de)患者,将他(tā)們分(fēn)入限制性和(hé)開放性輸血策略組,通(tōng)過對(duì)數二項回歸模型和(hé)多(duō)重插補的(de)方法,探究不同輸血策略與心肌梗死複發或死亡的(de)關系。結果表明(míng),對(duì)于心肌梗死和(hé)貧血患者,寬松的(de)輸血策略并不能顯著降低30天内複發性心肌梗死或死亡的(de)風險。然而,限制性輸血策略的(de)潛在危害不能被排除。






限制性策略組的(de)平均血紅蛋白水(shuǐ)平在第1天比自由策略組低1.3 g/dl (95% 置信區(qū)間[ CI ] ,1.2至1.4) ,在第3天低1.6 g/dl (95% CI,1.5至1.7)。自由策略組輸血的(de)紅細胞總數是限制策略組輸血的(de)3.5倍(4325個(gè)單位比1237個(gè)單位)。自由策略組輸注的(de)紅細胞單位的(de)平均(± SD)數爲2.5 ± 2.3,而限制策略組爲0.7 ± 1.6。兩組患者從随機分(fēn)組到出院、停藥或死亡的(de)住院時(shí)間中位數爲5天(四分(fēn)差2-10天)。
摘要與主要結果

一、研究摘要
研究目的(de):對(duì)于心肌梗死和(hé)貧血患者,寬松的(de)輸血策略并不能顯著降低30天内複發性心肌梗死或死亡的(de)風險。然而,限制性輸血策略的(de)潛在危害不能被排除。
方法:這(zhè)個(gè)3期幹預性實驗中,研究者随機将心肌梗死和(hé)血紅蛋白水(shuǐ)平低于10 g/dl的(de)患者分(fēn)配到兩組——限制性輸血策略(輸血血紅蛋白截止值,7或8g/dl)或自由輸血策略(血紅蛋白截止值,< 10g/dl)。主要結局是在30天時(shí)出現心肌梗死或死亡。
果:主要分(fēn)析共納入3504例患者。輸注的(de)紅細胞單位的(de)平均(± SD)數量在限制策略組爲0.7 ± 1.6,在自由策略組爲2.5 ± 2.3。随機分(fēn)組後第1至3天,限制策略組的(de)平均血紅蛋白水(shuǐ)平比自由策略組低1.3至1.6 g/dl。限制性策略組1749例患者中有295例(16.9%)發生主要終點事件,自由策略組1755例患者中有255例(14.5%)發生主要終點事件(不完全随訪的(de)多(duō)重歸因風險比爲1.15; 95% 置信區(qū)間[ CI ] ,0.99至1.34; P = 0.07)。9.9% 的(de)限制性策略患者和(hé)8.3% 的(de)自由策略患者發生死亡(風險比爲1.19.95% CI,0.96-1.47) ,8.5% 和(hé)7.2% 的(de)患者發生心肌梗死(風險比爲1.19.95% CI,0.94-1.49)。
結論:對(duì)于心肌梗死和(hé)貧血患者,寬松的(de)輸血策略并不能顯著降低30天内複發性心肌梗死或死亡的(de)風險。然而,限制性輸血策略的(de)潛在危害不能被排除。
二、研究結果
1. 基線特征
從2017年4月(yuè)到2023年4月(yuè),共有3506名患者入選,在2名患者不同意使用(yòng)他(tā)們的(de)數據後,3504名患者被納入分(fēn)析。患者的(de)平均年齡爲72.1歲,其中45.5% 爲女(nǚ)性。這(zhè)些病人(rén)經常并存疾病,大(dà)約三分(fēn)之一有心肌梗死、冠狀動脈再成形術或心力衰竭的(de)病史,近一半有腎功能衰竭。在随機分(fēn)組前接受冠狀動脈造影(yǐng)和(hé)左心室功能評估的(de)患者中,存在多(duō)支血管病變和(hé)左心室收縮功能降低是常見的(de)。
大(dà)部分(fēn)(55.8%)患者爲2型心肌梗死,其次爲1型(41.7%)。随機前平均血紅蛋白水(shuǐ)平爲8.6 g/dl,肌酐中位數爲1.4 mg/dl (124μmol/L)。對(duì)3447例(98.3%)接受随機分(fēn)組的(de)患者進行了(le)30天的(de)随訪。
2.幹預實施情況


  • 限制性策略組中,46例患者(2.6%)中止了(le)治療,其中24例是由于臨床原因,包括手術和(hé)出血。

  • 自由策略組中止方案發生在241名患者(13.7%) ; 其中89名患者提供了(le)臨床原因,包括不良反應,液體超負荷,透析和(hé)輸血反應。

  • 停藥的(de)其他(tā)原因包括患者偏好(68)、提供者偏好(53)和(hé)其他(tā)原因(31,包括血液供應短缺和(hé)人(rén)員(yuán)配備問題。


3. 研究主要結局與次要結局結果
限制性策略組1749名患者中有295名(16.9%)發生了(le)30天内任何原因導緻的(de)心肌梗死或死亡(主要結果) ,自由策略組1755名患者中有255名(14.5%)發生了(le)死亡。粗RR(限制性與自由性)爲1.16(95% CI,1.00-1.35)。根據對(duì)57例患者(限制性策略20例,自由策略37例)調整部位和(hé)不完全随訪後的(de)對(duì)數二項模型,主要結局的(de)估計RR爲1.15(95% CI,0.99-1.34; P = 0.07)。在調整基線預後因素(RR =1.16; 95% CI 1.00-1.36)後,模型對(duì)主要結果的(de)估計與前兩個(gè)計算(suàn)結果一緻。
4. 主要結局(心肌梗死或死亡)的(de)K-M曲線
5. 亞組分(fēn)析
與自由輸血策略相比,限制性輸血對(duì)主要結局的(de)影(yǐng)響在所有預先指定的(de)亞組中是一緻的(de)。在1型心肌梗死患者中,限制性策略比自由策略導緻更多(duō)的(de)主要結果事件(風險比1.32; 95% CI,1.04-1.67) ,在2型心肌梗死患者中沒有明(míng)顯效果(風險比1.05; 95% CI,0.85-1.29)。

設計與統計學方法

一、研究設計


P:來(lái)自美(měi)國144個(gè)試驗點的(de)ST 段擡高(gāo)或非 ST 段擡高(gāo)心肌梗死伴有貧血(随機分(fēn)組前24小時(shí)内血紅蛋白水(shuǐ)平 < 10 g/dl)的(de)成年人(rén)(≥18歲),共3506名患者。

E/C:自由輸血策略(血紅蛋白截止值,< 10 g/dl)/ 限制性輸血策略(輸血血紅蛋白截止值,7或8 g/dl)。

O:在30天時(shí)出現心肌梗死或死亡。


S:開放标簽的(de) RCT。
二、統計方法
1.采用(yòng)ITT進行分(fēn)析,使用(yòng)雙側檢驗,α=0.05,檢驗效能爲80%,假設心肌梗死或死亡的(de)總發生率爲 16.4%。
2.使用(yòng)對(duì)數二項式回歸分(fēn)析主要結局,其中固定效應爲設定的(de)輸血策略,随機效應爲不同臨床試驗點。
3.使用(yòng)鏈式方程多(duō)重插補(MICE)進行多(duō)重插補,以插補 30 天前退出或失訪且未發生主要結局事件的(de)患者的(de)缺失結局數據
4.對(duì)于所有試驗結局,我們分(fēn)析了(le)粗略的(de)30天風險,沒有進行多(duō)重插補,計算(suàn)了(le)RR和(hé)95%CI。
5.對(duì)主要結局進行了(le)二次分(fēn)析,使用(yòng)了(le)Kaplan–Meier方法評估主要結局事件的(de)累積風險,并在患者停藥時(shí)和(hé)30天時(shí)使用(yòng)log-rank統計比較兩條累積風險曲線。
插補與多(duō)重插補
一、關于數據插補的(de)基礎知識
對(duì)于缺失值,我們有三種常見的(de)處理(lǐ)辦法:①不處理(lǐ)(用(yòng)算(suàn)法包容或者轉化(huà)爲新分(fēn)類);②删除;③插補(imputation)。但是每一份臨床數據都是寶貴的(de)資源,我們通(tōng)常想要最大(dà)化(huà)利用(yòng),那麽合理(lǐ)的(de)插補就成爲了(le)一種理(lǐ)想方法。
常見的(de)插補可(kě)以分(fēn)爲以下(xià)幾種:
1.均值/中位數/衆數插補


  • 對(duì)于連續定量數據,可(kě)以用(yòng)均值或中位數插補。這(zhè)是一種經常使用(yòng)又簡單可(kě)行的(de)方法。
  • 對(duì)于離散型定量數據,可(kě)以使用(yòng)衆數(mode)插補。衆數是指頻(pín)數最多(duō)的(de)一組數據的(de)組中值。


2.固定值填充
以統一的(de)參考值/标準值/特殊值替換。
3.臨近值插補
借助與缺失樣本最臨近(相似度)最高(gāo)的(de)k個(gè)樣本的(de)屬性值,加權平均後插補。
當k=1時(shí),最近臨插補法又稱爲熱(rè)卡填充法。
4.回歸插補
建立回歸模型來(lái)拟合缺失值。
5.函數插值
對(duì)于一維數據,可(kě)以使用(yòng)前後兩個(gè)樣本點,進行線性插值;也(yě)可(kě)以使用(yòng)附近多(duō)個(gè)樣本點,進行拉格朗日插值法和(hé)牛頓插值法。函數插值法和(hé)回歸插補法的(de)區(qū)别在于,函數插值是完美(měi)拟合的(de),而回歸插補是拟合以達到最小方差。
6.多(duō)重插補(Multiple Imputation,MI)
多(duō)重插補是用(yòng)模型估計和(hé)重複模拟來(lái)生成一組完整的(de)數據集。其基本原理(lǐ)是,模拟生成一個(gè)缺失數據的(de)随機分(fēn)布,而後從中随機抽取數據作爲缺失值的(de)填補。
例如,對(duì)于缺失值N,如果我們用(yòng)y=ax+b進行插補,就沒有考慮抽樣的(de)偏離。但是增加殘差e後,用(yòng)y=ax+b+e進行插補,仍然假定a,b是真實值,但a,b隻是我們的(de)估計值。所以,我們從貝葉斯後驗分(fēn)布中随機抽取a,b。
通(tōng)過馬爾科夫鏈蒙特卡洛法(Markov Chain Monte Carlo,MCMC)法,我們可(kě)以通(tōng)過産生平穩的(de)分(fēn)布鏈和(hé)模拟抽樣,來(lái)達成這(zhè)種多(duō)重插補的(de)目的(de)。
二、本文中的(de)多(duō)重插補
1.本文在附錄和(hé)protocol中詳細闡述了(le)其多(duō)重插補方法。主要運用(yòng)的(de)原理(lǐ)是Markov Chain Monte Carlo (MCMC)多(duō)重插補法。用(yòng)于插補随訪中退出或缺失患者主要結局數據,即死亡和(hé)心肌梗死缺失的(de) 30 天結果值(是/否)。使用(yòng)的(de)軟件是SAS 9.4 PROC MI 和(hé) PROC MIANALYZE。
2.具體方法是應用(yòng)已完整的(de)數據,建立一個(gè)對(duì)數二項式模型來(lái)預估結局與關鍵變量的(de)關系。該該模型将用(yòng)于預測缺失 30 天結果的(de)參與者的(de)結果概率。根據這(zhè)些概率,将創建十個(gè)插補數據集将對(duì)每個(gè)插補數據集估計具有站點随機效應的(de)對(duì)數二項式模型,并使用(yòng)穩健的(de)方法将結果收斂以獲得(de)具有适當調整标準誤差的(de)治療效果的(de)單一估計值。之後進行了(le)許多(duō)敏感性分(fēn)析,結果與各種方法相似。
3.納入多(duō)重插補模型中的(de)變量: