知識的價值不在于占有,而在于使用。

生信自學網-速科生物-生物信息學數據庫挖掘視頻教程

當前位置: 主頁 > TCGA >

TCGA下載和提取臨床數據

時間:2018-01-27 20:04來源:原創 作者:BioWolf 點擊:
TCGA數據庫包含大體量數據,其中非常關鍵的是臨床數據,公開這些臨床數據,對科研工作有非常大的幫助,那么下載和提取臨床數據顯得非常關鍵和重要,可以說,提取臨床數據是研究TCGA數據
一、數據庫:TCGA
二、內容:下載臨床數據,提取臨床數據
三、癌癥數據:宮頸鱗狀細胞癌CESC
四、方法:
1、可視化下載XML原始文件
2、perl腳本提取XML文件的臨床信息,得到臨床數據
五、步驟
1、登陸TCGA數據庫官方網站,
https://cancergenome.nih.gov/ ,點擊"Launch Data Portal"進入數據庫頁面,或者直接登陸數據庫網站:https://portal.gdc.cancer.gov/ 。進到數據庫網站,點擊“Data”,進入可視化選擇頁面。
TCGA界面


數據頁面

2、選擇的方法:CASE選項框依次選擇——"Primary Site"-Cervix——"Cancer Program"-TCGA——"Project"-TCGA-CESC——其他默認即可
Files選項框依次選擇——"Data Category"-Clinical——其他默認即可
這是右邊可以得到Cases數目307個,Files數目307個,大小是20.04M
說明:Case是樣本的數據,Files是文件數目,在mRNA的數據時,經常出現Cases的數目和Files的數目是不相等的,這是因為,一個樣本可能有多份數據。
TCGA癌癥數據

樣本
3、點擊"Add all files to the cart",然后進入右上角的"Cart"進入數據展示和下載頁面
說明:"Cart"是TCGA數據庫類似購物車的一個工具,里面是我們選到的數據界面。
4、在“Cart"頁面中,我們需要下載3個數據:Metadata、"Download"-Manifest、Cart
說明:
Metadata:最后一次隨訪的臨床數據
Manifest:樣本注釋文件,主要用于Data Transfer Tool工具下載數據時使用
Cart:壓縮包,包含所有的XML文件,也就是臨床數據的壓縮包文件。
樣本文件
5、TCGA數據庫在數據下載有規定:讓Cart文件夾大于50M時(這個依據網絡情況,和下載用戶數目),只能通過Data Transfer Tool工具進行下載。我們這里的Cart時20.04M,一般情況可以直接下載壓縮包。注:后面mRNA的內容,我們會講解如何使用Data Transfer Tool工具下載數據。
樣本詳情
6、下載好所有需要的數據之后,我們需要用perl腳本提取文件里面的臨床數據。我們首先把gdc_download_20170405_074438.tar.gz這個壓縮包解壓,解壓得到307個文件夾,也就是一本樣本一個臨床數據文件夾。
文件夾截圖
7、把307個文件夾、MANIFEST.txt、get_clinical.pl腳本放在一起,我們在CMD里面輸入代碼"perl get_clinical.pl MANIFEST.txt",按回車,腳本文件開始運行,運行完就可以得到我們需要的clinical.txt
臨床數據提取


use strict;
use warnings;
#use File::Basename;
use XML::Simple;
#use Data::Dumper;

my @dirs=glob("*");
open(WF,">clinical.txt") or die $!;
if(-d $dir){
	  opendir(RD,"$dir") or die $!;
	  while(my $xmlfile=readdir(RD)){

到這里,這節課需要分析的內容就講完了,希望對大家有幫助,如果需要獲得更便捷的咨詢,可以關注微信公眾號。
責任編輯:樂偉
作者申明:本文版權屬于生信自學網(微信號:18520221056)未經授權,一律禁止轉載!
加生信自學網群
BioWolf二維碼生成器
頂一下
(32)
80%
踩一下
(8)
20%
------分隔線----------------------------
發表評論
請自覺遵守互聯網相關的政策法規,嚴禁發布色情、暴力、反動的言論。
評價:
表情:
用戶名: 驗證碼:點擊我更換圖片
TCGA腫瘤微環境
推薦內容
單基因發文套路
m6A