知識的價值不在于占有,而在于使用。

生信自學網-速科生物-生物信息學數據庫挖掘視頻教程

當前位置: 主頁 > TCGA >

TCGA數據庫完整臨床數據全部提取

時間:2017-08-15 07:26來源:原創 作者:BioWolf 點擊:
TCGA數據庫33種癌癥,完成臨床數據,lncRNA矩陣,miRNA表達矩陣,mRNA表達矩陣,需要就可以直接聯系獲取
TCGA數據庫33種主要癌癥的數據已經可以獲取了,有學員就會說,TCGA數據庫本來就提供下載啊,有什么稀奇的?
經過半年的下載與整理,33種的重要癌癥的基本臨床信息、完整臨床信息、mRNA表達矩陣、lncRNA表達矩陣、miRNA表達矩陣,都已經統計完成,每位學員都可以獲取,不用再苦逼的凌晨起來gdc下載數據,不用到處搜索如何提取臨床數據,如何提取矩陣文件,如果你需要節省寶貴的時間做更加重要的研究,那么整理好的這些數據,可以直接用于后續的分析。
癌癥數據:
1、基本臨床數據
行名是樣本代號,列名是臨床信息(包含16列主要臨床信息,一般的研究和臨床統計是能夠滿足的),如圖
基本臨床數據
2、完整臨床數據
行名是樣本代號,列名是臨床信息(包含150列左右,具體列數每個癌癥樣本不一樣,包含全部的臨床信息),如圖
完整臨床數據
3、mRNA表達矩陣
行名是gene symbol,列名是樣本代號,如圖
mRNA表達矩陣
4、lncRNA表達矩陣
行名是lncRNA,列名是樣本代號,如圖
lncRNA表達矩陣
5、miRNA表達矩陣
行名是miRNA,列名是樣本代號,如圖
miRNA表達矩陣
6、打包銷售
包括基本臨床數據、完整臨床數據、mRNA表達矩陣、lncRNA表達矩陣、miRNA表達矩陣
 
購買方式:
1、加服務QQ:2749657388,聯系客服,選擇癌癥類型,數據類型,確認價格。支持支付寶、微信付款;付款后百度網盤下載數據;
2、掃碼付款,付款成功后加微信公眾號,直接在輸入框數據癌癥類型、數據類型和付款金額,郵箱或者是QQ號,客服收到信息驗證付款后,發送數據或者百度網盤下載地址。
癌癥類型和數據類型參見下表:
癌癥樣本
癌癥類型:
1、ACC 腺樣囊性癌;2、BLCA 膀胱癌;3、BRCA 乳腺癌;4、CESC 宮頸鱗狀細胞癌;5、CHOL 膽癌;6、COAD 結腸癌;7、DLBC 淋巴癌;8、ESCA 食管癌;9、GBM 腦癌;10、LGG 腦癌;11、HNSC 頭頸部鱗癌;12、KICH 嫌色細胞癌;13、KIRC 腎透明細胞癌;14、KIRP 乳頭狀腎細胞癌;15、LAML 骨髓癌;16、LIHC 肝癌;17、LUAD 肺腺癌;18、LUSC 肺鱗狀細胞癌;19、MESO 胸膜癌;20、OV 卵巢癌;21、PAAD 胰腺癌;22、PCPG 腎上腺癌;23、PRAD 前列腺癌;24、READ 直腸癌;25、SARC 軟組織癌;26、SKCM 皮膚癌;27、STAD 胃癌;28、TGCT 睪丸癌;29、THCA 甲狀腺癌;30、THYM 胸腺癌;31、UCEC 子宮內膜癌;32、UCS 子宮癌;33、UVM 眼癌
正常的工作流程本來是這樣的:
1、進入TCGA的官網,選擇研究相關的癌癥類型,下載Clinical臨床、Transcriptome Profiling中的Gene Expression Quantification、miRNA Expression Quantification的Metadata、Manifest文件,下載TCGA數據庫提供的gdc下載工具;
2、利用gdc工具,在本地CMD環境數據下載命令:gdc-client.exe download -m gdc_manifest.txt,下載臨床原始數據、基因表達數據、miRNA表達數據,其中臨床數據是.xml的網頁文本文件,基因表達數據是每個樣本一個壓縮包,miRNA表達數據是每個樣本一個壓縮包;
TCGA數據庫
3、以宮頸鱗狀細胞癌CESC為例,臨床數據下載下來是307個文件夾,每個文件夾里有一個.xml文件,保存著一個樣本的臨床數據,需要想辦法把這307個文件夾的307個.xml文件提取到一個exl文件里面,提取的臨床數據一般都只包含一部分信息,為了獲得完整的臨床數據,很多學員想盡辦法也沒能成功;
4、CESC的基因表達包括307個文件,每個文件里面是一個壓縮包,每個壓縮包保存了一個.txt文件,這個.txt文件就保存著一個樣本的表達信息。需要把307個壓縮包提到一個文件夾中,使用壓縮軟件,把307個壓縮包解壓,得到307個.txt文件,再用提取腳本,把基因的表達矩陣提取出來;
火山圖
5、基因矩陣提取出來之后,會發現TCGA用的GENE ID是Ensembl ID,所以需要把Ensembl ID轉換成symbol ID,這一步又難倒了不少學員,當然教程生信自學網也有,可以去學習,現在Ensembl官方下載Ensembl的數據庫,對照Ensembl數據庫和基因矩陣,用腳本檢索替換,得到symbol ID的矩陣;
6、基因矩陣包含mRNA和lncRNA以及其他一些基因,需要把mRNA和lncRNA分離出來,利用腳本提取mRNA和lncRNA的矩陣;
7、CESC的miRNA表達數據包括307個文件夾,每個文件夾包括一個.txt文件,這個.txt文件就保存了一個樣本的miRNA表達信息,需要把307個.txt文件提取到一個文件夾內,用腳本提取這307個文件的表達信息,保存在一個exl文件里面。
癌癥分型
看到這樣的流程,估計還沒開始操作,很多學員就驚嘆了。不用驚訝,這樣的分析步驟已經是大神級別,普通學員可能在研究如何下載TCGA數據,就花費了半個月的時間,每天都在搜索如何下載臨床數據,如何下載基因表達數據。下載下來之后,一看傻眼了,怎么都是這樣的,還能不能給人好好繼續研究了。
從此刻起,這一切的煩惱都過去了,你本應該話更多時間做研究的,而不是花太多精力研究如何下載和提取臨床信息,矩陣文件,后續的差異分析,生存分析,Cox分析,共表達分析才是TCGA數據挖掘的核心。當基本臨床信息、完整臨床信息、mRNA表達矩陣、lncRNA表達矩陣、miRNA表達矩陣都可以直接獲取,你節省的不只是時間,還有科研進度,一步領先,步步領先,GEO數據庫研究的現狀就是TCGA數據庫的未來,這個是發展的必然。
 


責任編輯:樂偉
作者申明:本文版權屬于生信自學網(微信號:18520221056)未經授權,一律禁止轉載!
加生信自學網群
BioWolf二維碼生成器
頂一下
(9)
39.1%
踩一下
(14)
60.9%
------分隔線----------------------------
發表評論
請自覺遵守互聯網相關的政策法規,嚴禁發布色情、暴力、反動的言論。
評價:
表情:
用戶名: 驗證碼:點擊我更換圖片
TCGA腫瘤微環境
推薦內容
單基因發文套路
m6A