QQ登錄

只需一步,快速開始

使用微信賬號登錄

查看: 7412|回復: 2
打印 上一主題 下一主題

TCGA CNV分析方法

  [復制鏈接]

該用戶從未簽到

9

主題

20

帖子

67

積分

注冊會員

Rank: 2

積分
67
樓主
跳轉到指定樓層
發表于 2017-9-13 14:16:09 | 只看該作者 回帖獎勵 |倒序瀏覽 |閱讀模式
生信自學課堂
明白什么是CNV
對正常人來說,基因組應該是二倍體的,所以凡是測到非2倍體的地方都是CNV。但是CNV本身就是人群遺傳物質多樣性的體現,所以對癌癥樣本來說,是需要過濾掉正常人體內的germline的CNV,得到somatic的CNV。

CNV(copy-numbervariant)是指拷貝數目變異,也稱拷貝數目多態性(copy-number polymorphism,CNP),是一個大小介于1kb至3MB的DNA片段的變異,在人類及動植物基因組中廣泛分布,其覆蓋的核苷酸總數大大超過單核苷酸多態性(SNP)的總數,極大地豐富了基因組遺傳變異的多樣性。按照CNV是否致病可分為致病性CNV、非致病性CNV和不明臨床意義CNV。

TCGA的CNV測量及計算
TCGA里面主要是通過Affymetrix SNP6.0 array這款芯片來測拷貝數變異!

值得注意的是,并不是只有TCGA利用了SNP6.這個芯片數據,著名的CCLE計劃也對一千多細胞系處理了SNP6.0芯片,數據也是可以下載的。

對SNP6.0的拷貝數芯片來說,通常是用PICNIC等軟件處理原始數據,就可以得到的segment記錄文件,每個樣本一個結果,下面是示例結果:

表明了某條染色體的某個區域內,SNP6.0芯片設計了多少個探針,芯片結果的拷貝數值是多少(這個區域的拷貝數用Segment_Mean)。

通常二倍體的Segment_Mean值為0,可以用-0.2和0.2來作為該區域是否缺失或者擴增。

具體數據處理流程見NIH的TCGA官網: https://docs.gdc.cancer.gov/Data/BioinformaticsPipelines/CNVPipeline/

參考文獻:http://mcr.aacrjournals.org/content/12/4/485.long

TCGA的CNV數據下載
眾所周知,TCGA的數據的開放程度分成了4個等級,一般人都是下載level 3 的數據,對CNV數據也是如此。

我比較喜歡去broad institute下載TCGA的數據,所有的文件都以目錄的形式存放著:

  • https://gdac.broadinstitute.org/runs/stddata__latest/
  • https://gdac.broadinstitute.org/runs/analyses__latest/


如果要下載level3的數據,就用 stddata__latest 這個url即可,打開可以看到里面列出了所有的癌癥種類,假如我們感興趣的是BRCA,就直接點擊進入,用下面的url即可。

  • https://gdac.broadinstitute.org/runs/analyses__latest/data/BRCA/20160128/


打開url可以看到非常多的文件,這里我們感興趣的是snp6芯片的拷貝數結果,而且一般是基于hg19版本的。


如果要下載其它癌癥種類,只需要改變url里面的BRCA即可。 如果要下載其它類型的數據,只需要改變-A 后面的匹配規則即可,其實就是打開上面url看到的幾十個文件的文件名的規律。

  • '*snp_6*hg19*Level_3*'


幾分鐘就下載完數據啦,然后你就會看到下面兩個截然不同的:

  • Merge_snp__genome_wide_snp_6__broad_mit_edu__Level_3__segmented_scna_hg19__seg
  • Merge_snp__genome_wide_snp_6__broad_mit_edu__Level_3__segmented_scna_minus_germline_cnv_hg19__seg


其中minus了germline的CNV的就是我們想要的癌癥相關的somatic CNV咯!

拿到CNV做什么?

首先兩個segment文本文件已經可以直接載入IGV查看所有BRCA樣本的CNV情況啦,如下所示:

CNV深度分析注釋基因
前面我們下載的CNV都是基于基因組區域的,比如1號染色體的61735起始坐標到1510801終止坐標。在IGV里面倒是可以看出一些pattern,但是人們感興趣的往往是這些位置上面到底有哪些基因。接下來就可以對基因進行各種下游分析。

既然是對基因組片段做基因注釋,那么首先就需要拿到基因的坐標信息咯,我是在gencode數據庫里面下載,然后解析成下面的bed格式的,如下:


本帖子中包含更多資源

您需要 登錄 才可以下載或查看,沒有帳號?立即注冊

x
分享到:
回復

使用道具 舉報

該用戶從未簽到

9

主題

20

帖子

67

積分

注冊會員

Rank: 2

積分
67
沙發
 樓主| 發表于 2017-9-13 14:17:22 | 只看該作者
生信自學課堂
然后要把我們下載的CNV文本文件,轉為bed格式的,就是把列的順序調換一下:

避免重復造輪子,我就用我擅長的bedtools解決這個需求吧,命令很簡單,如下:

  • bedtools intersect -a Features.bed  -b  ~/reference/gtf/gencode/protein_coding.hg19.position  -wa -wb  \
  • | bedtools groupby -i - -g 1-4 -c 10 -o collapse


注釋結果,我挑了幾個可以看的給大家,可以看到,每個CNV片段都注釋到了對應的基因,有些特別大的片段,會被注釋到非常多的基因。

找somatic CNVs

仔細看上面IGV的pattern你會發現某些染色體的某些片段經常會擴增或者缺失,這個現象就是人們想研究是recurrent CNV regions,當然不會用肉眼看咯,這時候需要用GISTIC這個軟件。 找到了recurrent CNV regions同樣是需要進行基因注釋,才能進行下游分析咯。

本帖子中包含更多資源

您需要 登錄 才可以下載或查看,沒有帳號?立即注冊

x
回復 支持 反對

使用道具 舉報

該用戶從未簽到

0

主題

6

帖子

14

積分

新手上路

Rank: 1

積分
14
板凳
發表于 2017-9-21 10:01:38 | 只看該作者
生信自學課堂
這個分析很有價值,收藏
回復 支持 反對

使用道具 舉報

您需要登錄后才可以回帖 登錄 | 立即注冊

本版積分規則

客服熱線
18520221056(微信) 周一至周日:09:00 - 22:00
公司官網:http://www.hbnisg.live

速科生物是一家融生信創新、設計、技術開發、服務為核心的生物公司,生信自學網專注于生信培訓周邊課程開發和代碼設計,堅持為客戶打造高品質的精品課程和培訓服務。

Powered by 生信自學網 © 2016-2019 江西速科生物

QQ|生信自學論壇 ( 贛ICP備19001400號-1 )

GMT+8, 2019-12-7 12:16 , Processed in 0.166642 second(s), 25 queries .

快速回復 返回頂部 返回列表
12134期6场半全场