知識的價值不在于占有,而在于使用。

生信自學網-速科生物-生物信息學數據庫挖掘視頻教程

當前位置: 主頁 > TCGA >

如何分組做COX模型驗證

時間:2019-07-29 23:12來源:生信自學網 作者:樂偉 點擊:
COX模型驗證如何分train組和test組,可以購買生信自學網錄制的專利視頻課程《COX模型驗證》
COX模型驗證如何分train組和test組
1、首先我們看下,COX模型構建里面,需要用到的兩個數據,一個是基因表達矩陣,一個是每個樣品的臨床數據包括生存時間和生存狀態。當然我們常用的有TCGA數據庫,分析癌癥首選,表達數據和生存數據都比較完整,而且容易獲??;當然大家可以自己準備,其他數據庫的數據或者自己的實驗數據。
想要學習如何做COX模型驗證分組,可以學習生信自學網為大家精心錄制的專利課程:
《COX模型驗證》


2、有了兩個數據文件,接下來需要通過樣本ID把臨床和表達整合在一個矩陣里面,組合好的矩陣行名是樣品,列名有生存時間、生存狀態和基因的名稱。

3、接下來就是最關鍵的分組,把樣品分train組和test組
常規分組比例:train組和test組各占50%,這也是COX分析常見的分組比例,當然如果是其他分析,可能用其他比例,大家可以參考相關文獻。
分組命令:inTrain<-createDataPartition(y=rt[,3],p=0.5,list=F)
這里的y值:是一個關鍵值,這里選擇的3,也就是第三列“生存狀態”,在第三列生存狀態有存活病人和死亡的病人,在分組的時候,保證train組和test組的存活病人和死亡病人數目相差不大。
P=0.5:train組和test各占50%
這樣的話,我們就把所有的樣本分成兩組。

4、在有些情況下,我們做隨機分組之后,做單因素、lasso回歸分析、多因素cox分析、ROC曲線,并沒有得到理想的結果,那么有些學員就建議我們開發循環分組。
那么通過循環,同時得到后面高低風險組生存曲線P值和ROC曲線AUC值滿足條件的一個分組。

if((pValue<0.01) & (roc$AUC>0.65) & (pValueTest<0.03) & (rocTest$AUC>0.62))
這里分別是值train組和test組高低風險生存差異P值,兩組的AUC值

當然參數不能設定太嚴格,否則可能即使循環也得不到理想的分組。

生信自學網推薦精品課程:
《單基因挖掘套路基于TCGA數據庫》
《TCGA腫瘤突變負荷》
《GTEx數據庫聯合TCGA數據庫挖掘》
《中藥復方網絡藥理學》



責任編輯:樂偉
作者申明:本文版權屬于生信自學網(微信號:18520221056)未經授權,一律禁止轉載!
加生信自學網群
BioWolf二維碼生成器
頂一下
(2)
100%
踩一下
(0)
0%
------分隔線----------------------------
發表評論
請自覺遵守互聯網相關的政策法規,嚴禁發布色情、暴力、反動的言論。
評價:
表情:
用戶名: 驗證碼:點擊我更換圖片
TCGA腫瘤微環境
推薦內容
單基因發文套路
m6A