QQ登錄

只需一步,快速開始

使用微信賬號登錄

查看: 10658|回復: 1
打印 上一主題 下一主題

手把手教你從GEO數據庫里挖掘一個課題

    [復制鏈接]

該用戶從未簽到

8

主題

26

帖子

80

積分

注冊會員

Rank: 2

積分
80
樓主
跳轉到指定樓層
發表于 2017-9-10 06:04:13 | 只看該作者 回帖獎勵 |倒序瀏覽 |閱讀模式
生信自學課堂

近年來,測序技術飛速發展,在科研中更是十分普遍。大家一定發現,隨便翻開幾篇文章都能找到microarray、RNA-SEQ等熟悉的字眼,沒個高通量測序都不好意思說自己搞了個課題!


然而涉及到這些生信方面的技術,滿屏幕的代碼,看起來雜亂無章的數據,是否讓你頭大呢?科研經費緊張的你是否沒有辦法涉足大數據科研呢?沒有過硬的關系網,是否很難搞到臨床樣本做大數據分析呢?


沒關系,讓我來教你怎么利用自己的電腦,運用NCBI的GEO數據庫、EXCEL等軟件,傻瓜式的進行初級的大數據挖掘和分析,甚至找到一個2-3分的課題!


下面以癌癥為例,我們可以這么想:紫杉醇(paclitaxel)是一個常見的癌癥用藥,但是經常因為耐藥性而失去應有的療效,那么其中的分子機制是否有研究的價值呢?


首先,打開NCBI(https://www.ncbi.nlm.nih.gov/),如下圖選擇GEO Datasets,輸入paclitaxel cancer,點擊Search搜索。


出來以下結果:

一共105個是Series,也就是別人做了測序并發文章以后上傳到NCBI上的數據,后面的是測序平臺、還有各樣本的信息,大家有興趣可以自己摸索以下,這里不涉及了。如果搜索到的結果較多,你也可以點擊頁面左側的series來只顯示我們需要的條目。我發現第七個搜索結果有點意思。

點進去看看

等我們閱讀完摘要和實驗組的處理方法,確定該數據符合我們的需求,就可以點擊Analyze with GEO2R,進入下面的頁面,利用NCBI提供的工具進行數據分析。


接下來,我們點擊Define groups,輸入兩個分組,分別是normal和resistant,并分別將普通的細胞系和耐藥細胞系點擊分入這兩組,分組完畢后,點擊save all results,獲取兩組之間的差異表達基因(稍等幾分鐘)。

得到如下的結果,把他們全選并復制,粘貼到記事本中,保存為output.txt。

接著我們將output.txt導入到EXCEL中(數據->自文本,選擇output.txt按默認設置導入即可)。


待數據導入完成,我們全選數據表,點擊EXCEL的篩選功能,準備對數據進行篩選。

下一步,我們需要對差異表達基因的數據進行進一步的篩選。在這里,我們將p.value(p值,象征著差異的顯著性)和logFC(log2處理過的fold change值,象征著差異的倍數)設定為: p.value<0.01,><-2 or="" logfc="">2。即差異表達非常顯著,并且差異表達在4倍或-4倍以上。具體做法參見下圖。



篩選p.value:

篩選logFC:

最后我們可以在EXCEL左下角的狀態欄看到,一共篩選出來46個條目。

在53617條記錄中找到46個差異


讓我們回過頭來看篩選完的數據表GB_ACC這列可以看到很多類似NM_開頭的序號,這些序號可以在NCBI上直接查詢到對應的基因是什么,可以認為是該基因的身份證。

我們嘗試一下,將第一個序號放到NCBI上搜索:

這就是一個在耐紫杉醇細胞中差異表達的一個基因。到這里,其實已經可以作為一個課題的開頭了,但是為了我們高大上的追求,我們還有很多事情可以做。



本帖子中包含更多資源

您需要 登錄 才可以下載或查看,沒有帳號?立即注冊

x
分享到:
回復

使用道具 舉報

該用戶從未簽到

8

主題

26

帖子

80

積分

注冊會員

Rank: 2

積分
80
沙發
 樓主| 發表于 2017-9-10 06:07:49 | 只看該作者
生信自學課堂
給大家帶來一個神奇的網站:DAVID (https://david.ncifcrf.gov/)
這是一個可以做GO分析,KEGG通路分析,基因功能的批量注釋等等非常實用的網站,操作很親民在這里我簡單介紹一下用法。

點擊Functional Annotation進入如下頁面。把我們剛才篩選出來的數據依下圖指示操作,然后點擊submit list提交并分析。

稍等片刻即可得到分析結果頁面:

在這個頁面里面我們可以看到許多跟我們篩選出來的基因相關的信息,由于篇幅關系,我只挑一個來做個示范,其他的大家可以自行學習。

我們點擊最下方的Functional Annotation Table按鈕,彈出窗口會出現一個表格(如果沒有彈出,請查看你的瀏覽器是否屏蔽了彈出窗口),里面囊括了大量我們篩選出來的基因的相關信息,具體參見下圖:

最近幾年長鏈非編碼RNA(LncRNAs)研究很火熱,正好結果里面有一個long intergenic non-protein coding RNA 470(LINC00470),我們就把他抓住,看看有沒有可以挖的課題。

我們將LINC00470放到PUBMED上進行搜索,發現沒有相關的文章

那么下面怎么做,大家懂得,趕緊給老板寫開題報告

跟帖發文了

本帖子中包含更多資源

您需要 登錄 才可以下載或查看,沒有帳號?立即注冊

x
回復 支持 反對

使用道具 舉報

您需要登錄后才可以回帖 登錄 | 立即注冊

本版積分規則

客服熱線
18520221056(微信) 周一至周日:09:00 - 22:00
公司官網:http://www.hbnisg.live

速科生物是一家融生信創新、設計、技術開發、服務為核心的生物公司,生信自學網專注于生信培訓周邊課程開發和代碼設計,堅持為客戶打造高品質的精品課程和培訓服務。

Powered by 生信自學網 © 2016-2019 江西速科生物

QQ|生信自學論壇 ( 贛ICP備19001400號-1 )

GMT+8, 2019-12-11 11:43 , Processed in 0.155239 second(s), 24 queries .

快速回復 返回頂部 返回列表
12134期6场半全场