一、查找和下載數據
從GEO數據庫下載自己研究的癌癥相關的表達譜數據。
二、數據處理
對下載的數據進行整理,得到后續差異表達分析需要的表達矩陣文件。
三、差異表達
對于每個實驗的數據,使用limma進行芯片之間的標準化,差異表達分析。每個實驗數據做完limma分析之后,根據logFoldChange值對基因進行排序,然后進行RobustRankAggreg分析。

得到差異基因,使用pheatmap繪制熱圖。


三、TCGA驗證差異基因
從TCGA數據庫下載癌癥的level3的RNA-seq數據,合并矩陣。然后使用Wilcoxon texts非參數檢驗對GEO數據庫得到差異基因進行驗證。

四、生存分析
從TCGA數據庫下載生存數據,將生存數據和差異表達數據整合,做生存分析,繪制生存曲線。

五、GO富集分析
根據基因的GO注釋,選擇本物種的所有基因作為背景基因,使用統計方法計算P值,從而得到基因集合再GO類別上的分布信息和顯著性情況。在線工具一般使用DAVID

六、pathway分析
從復雜調控網絡的角度出發,基于常見生物學通路數據庫,對正常組和癌癥組差異甲基化基因集合進行基于pathway數據庫的生物通路富集分析,從而提取出最相關的生物通路上的基因,更加有利于下游實驗開展。

七、蛋白互作網絡
使用string軟件對生存相關基因構建蛋白互作網絡,得到蛋白的互相作用關系。

責任編輯:樂偉
作者申明:本文版權屬于生信自學網(微信號:18520221056)未經授權,一律禁止轉載!
|