一、生存分析(survival analysis)的定義
生存分析:對一個或多個非負隨機變數進行統計推斷,研究生存現象和響應時間資料及其統計規律的一門學科。
生存分析:既考慮結果又考慮生存時間的一種統計方法,並可充分利用截尾資料所提供的不完全資訊,對生存時間的分佈特徵進行描述,對影響生存時間的主要因素進行分析。
生存分析不同於其它多因素分析的主要區別點:生存分析考慮了每個觀測出現某一結局的時間長短。
應用場景
什麼是生存?生存的意義很廣泛,它可以指人或動物的存活(相對於死亡),可以是患者的病情正處於緩解狀態(相對於再次復發或惡化),還可以是某個系統或產品正常工作(相對於失效或故障),甚至可是是客戶的流失與否等。
在生存分析中,研究的主要物件是壽命超過某一時間的概率。還可以描述其他一些事情發生的概率,例如產品的失效、出獄犯人第一次犯罪、失業人員第一次找到工作等等。
在某些領域的分析中,常常用追蹤的方式來研究事物的發展規律,比如研究某種藥物的療效,手術後的存活時間,某件機器的使用壽命等。
在醫學研究中,常常用追蹤的方式來研究事物發展的規律。如,瞭解某藥物的療效,瞭解手術的存活時間,瞭解某醫療儀器裝置使用壽命等等。對生存資料的分析稱為生存分析。所謂生存資料就是描述壽命或者一個發生時間的資料。更詳細的說一個人的生存時間的長短與許多因素有聯絡的,研究因素與生存時間的聯絡有無及程度大小,稱為生存分析。
例如研究病人感染了病毒後,多長時間會死亡;工作的機器多長時間會發生崩潰等。 這裡“個體的存活”可以推廣抽象成某些關注的事件。 所以SA就成了研究某一事件與它的發生時間的聯絡的方法。這個方法廣泛的用在醫學、生物學等學科上,近年來也越來越多人用在網際網路資料探勘中,例如用survival analysis去預測資訊在社交網路的傳播程度,或者去預測使用者流失的概率。
生存分析研究的內容
1.描述生存過程
研究生存時間的分佈特點,估計生存率及平均存活時間,繪製生存曲線等,根據生存時間的長短,可以估算出各個時點的生存率,並根據生存率來估計中位生存時間,也可以根據生存曲線分析其生存特點,一般使用Kaplan-Meier法和壽命表法。
2.比較生存過程
可通過生存率及其標準誤對各樣本的生存率進行比較,以探討各組間的生存過程是否存在差異,一般使用Log-rank檢驗和Breslow檢驗。
3.分析危險因素
是通過生存分析模型來探討影響生存時間和終點事件的保護因素和不利因素,因素作用的大小及方向,相對危險度的大小,基本使用Cox迴歸模型。
4.建立數學模型
建立最終的數學模型,也是通過Cox迴歸模型完成。
生存分析對資料的基本要求
1.樣本由隨機抽樣方法獲得,要有一定的數量,死亡例數和比例不能太少
2.完整資料所佔的比例不能太少,即截尾值不宜太多
3.截尾值出現的原因無偏性,為防止偏性常常對被截尾的研究物件的年齡、職業、地區、病情輕重等情況進行分析
4.生存時間儘可能精確
5.缺項要儘量補齊
生存資料的共同特點
1.蘊含有結局和時間兩個方面的資訊
2.結局為兩分類往斥事件
3一般是通過隨訪收集得到,隨訪觀察往往是從某統一時間點(如入院或實施手術等某種處理措施後)開始,觀察到某規定時間點截止。
4.常因失訪等原因造成研究物件的生存時間資料不完整,分佈型別複雜,不能簡中地套用以前的方法
二、生存分析的基本概念
起始事件(initial event):反應生存時間起始特徵的事件,如疾病確診、某種疾病治療開始等。
失效事件(failure event):在生存分析隨訪研究過程中,一部分研究物件可觀察到死亡,可以得到準確的生存時間,它提供的資訊是完全的,這種事件稱為失效事件,也稱之為死亡事件、終點事件。
終點事件和起始事件是相對而言的,它們都由研究目的決定,須在設計時明確規定,並在研究期間嚴格遵守,不能隨意改變。
生存時間:廣義上指某個起點事件開始到某個終點事件發生所經歷的時間,度量單位可以是年、月、日、小時等,常用符號t所示。這個時間也未必是通常意義上的時間,也可以是和時間相關的變數。比如距離等,具體要根據研究目的而定義。
1)分佈型別不易確定。一般不服從正態分佈,多數情況下不服從任何規則的分佈型別。
2)影響因素多而複雜且不易控制。
3)根據研究物件的結局,生存時間資料可分為兩種型別:
完全資料(Completed Data):從觀察起點到發生死亡事件所經歷的時間。
不完全資料(Incomplete Data):生存時間觀察過程的截止不是由於死亡事件,而是由其他原因引起的
不完全資料分為:刪失資料(censored Data),截斷資料(truncated Data)
不完全主要原因:
失訪:指失去聯絡;
退出:死於非研究因素或非處理因素而退出研究;
終止:設計時規定的時間已到而終止觀察,但研究物件仍然存活。
刪失的表現形式
右刪失(Right Censoring):只知道實際壽命大於某數;
左刪失(Left Censoring):只知道實際壽命小於某數;
區間刪失(Interval Censoring):只知道實際壽命在一個時間區間內。
條件死亡概率:表示某時段開始存活的個體,在該時段內死亡的可能性,如年死亡概率q=某年內死亡人數/某年年初人口數,如果年記憶體在刪失資料,需要對分母進行校正,校正人口數=年初人口數-刪失例數/2
條件生存概率(conditional probability of survival):某時段開始時存活的個體,到該時段結束時讓然存活的可能性p=某年存活滿一年的人數/某年年初人口數=1-q,如果年記憶體在刪失資料,需要對分母進行校正,校正人口數=年初人口數-刪失例數/2
生存函式
若含有刪失資料,須分時段計算生存概率。假定觀察物件在各個時段的生存時間獨立,應用概率乘法定理將分時段的概率相乘得到生存率。
生存率與條件生存概率不同。條件生存概率是單個時段的結果,而生存率實質上是累積條件生存概率(cumulative probability of survival ),是多個時段的累積結果。例如,3 年生存率是第1 年存活,第2 年也存活,第3 年還存活的可能性。
生存率s(t)的估計方法有引數法和非引數法。常用非引數法,非引數法主要有二個,即,乘積極限法與壽命表法,乘積極限法主要用於觀察例數較少而未分組的生存資料,壽命表法適用於觀察例數較多而分組的資料,不同的分組壽命表法的計算結果亦會不同,當分組資料中每一個分組區間中最多隻有1個觀察值時,壽命表法的計算結果與乘積極限法完全相同。
生存曲線(survival curve):以觀察(隨訪)時間為橫軸,以生存率為縱軸,將各個時間點所對應的生存率連線在一起的曲線圖。
生存曲線是一條下降的曲線,分析時應注意曲線的高度和下降的坡度。平緩的生存曲線表示高生存率或較長生存期,陡峭的生存曲線表示低生存率或較短生存期。
中位生存期(median survival time):又稱半數生存期,表示恰好有50 %的個體尚存活的時間。中位生存期越長,表示疾病的預後越好;中位生存期越短,預後越差。估計中位生存期常用圖解法或線性內插法。
概率密度函式f(t)
生存函式S(t)
危險函式h(t)
累計危險函式H(t)
三、生存分析目的
估計 :根據樣本生存資料估計總體生存率及其它有關指標 ( 如中位生存期等 ) , 如根據腦瘤患者治療後的生存時間資料 , 估計不同時間的生存率 、生存曲線以及中位生存期等 。
比較 :對不同處理組生存率進行比較,如比較不同療法治療腦瘤的生存率,以瞭解哪種治療方案較優。
影響因素分析 :目的是為了探索和了解影響生存時間長短的因素 , 或平衡某些因素影響後 , 研究某個或某些因素對生存率的影響 。 如為改善腦瘤病人的預後 , 應瞭解影響病人預後的主要因素 , 包括病人的年齡 、 性別 、 病程 、 腫瘤分期 、 治療方案等 。
預測 :具有不同因素水平的個體生存預測 ,如根據腦瘤病人的年齡 、 性別 、 病程 、 腫瘤分期 、 治療方案等預測該病人t 年 ( 月 )生存率 。
四、生存分析的具體方法
生存分析方法可以分為描述法、引數法、半引數法和非引數法
1.描述法
根據樣本觀測值提供的資訊,直接用公式計算出每一個時間點或每一個時間區間上的生存函式、死亡函式、風險函式等,並採用列表或繪圖的形式顯示生存時間的分佈規律。
優點:方法簡單且對資料分佈無要求
缺點:不能比較兩組或多組生存時間分佈函式的區別,不能分析危險因素,不能建立生存時間與危險因素之間的關係模型。
2.非引數法
估計生存函式時對生存時間的分佈沒有要求,並且檢驗危險因素對生存時間的影響時採用的是非引數檢驗方法。
常用方法:乘積極限法、壽命表法
優點:可以估計生存函式,可以比較兩組或多組生存分佈函式。可以分析危險因素對生存時間的影響,對生存時間的分佈沒有要求。
缺點:不能建立生存時間與危險因素之間的關係模型。
3.引數法
根據樣本觀測值來估計假定的分佈模型中的引數,獲得生存時間的概率分佈模型。
生存時間經常服從的分佈有:指數分佈、Weibull分佈、對數正態分佈、對數Logistic分佈、Gamma分佈。
優點:可以估計生存函式,可以比較兩組或多組生存分佈函式。可以分析危險因素對生存時間的影響,可以建立生存時間與危險因素之間的關係模型。
缺點:需要事先知道生存時間的分佈
4.半引數法
不需要對生存時間的分佈做出假定,但是卻可以通過一個模型來分析生存時間的分佈規律,以及危險因素對生存時間的影響,最著名的就是COX迴歸。
優點:可以估計生存函式,可以比較兩組或多組生存分佈函式。可以分析危險因素對生存時間的影響,可以建立生存時間與危險因素之間的關係模型,不需要事先知道生存時間的分佈。
Cox 比例風險迴歸模型(Cox’s proportional hazards regression model) , 簡稱Cox 迴歸模型
如果Cox PH Model中的變數會隨時間變化,那麼就成了extended Cox model,此時HR不再是一個常量。很簡單的例子,如果病人的居住地也是一個變數,病人有可能會搬家,例如在北京吸霾了5年,再跑去廈門生活,那麼他舊病復發的概率肯定會降低。所以住所這個變數是和時間相關的。一種簡單的做法是,按照變數改變的時刻,把時間切割成區間,使得每個區間內的變數沒有變化。然後再套用Cox PH模型。