近年來,測序技術飛速發展,在科研中更是十分普遍。大家一定發現,隨便翻開幾篇文章都能找到microarray、RNA-SEQ等熟悉的字眼,沒個高通量測序都不好意思說自己搞了個課題!
然而涉及到這些生信方面的技術,滿屏幕的代碼,看起來雜亂無章的數據,是否讓你頭大呢?科研經費緊張的你是否沒有辦法涉足大數據科研呢?沒有過硬的關系網,是否很難搞到臨床樣本做大數據分析呢?
沒關系,讓我來教你怎么利用自己的電腦,運用NCBI的GEO數據庫、EXCEL等軟件,傻瓜式的進行初級的大數據挖掘和分析,甚至找到一個2-3分的課題!
下面以癌癥為例,我們可以這么想:紫杉醇(paclitaxel)是一個常見的癌癥用藥,但是經常因為耐藥性而失去應有的療效,那么其中的分子機制是否有研究的價值呢?
首先,打開NCBI(https://www.ncbi.nlm.nih.gov/),如下圖選擇GEO Datasets,輸入paclitaxel cancer,點擊Search搜索。
出來以下結果: 一共105個是Series,也就是別人做了測序并發文章以后上傳到NCBI上的數據,后面的是測序平臺、還有各樣本的信息,大家有興趣可以自己摸索以下,這里不涉及了。如果搜索到的結果較多,你也可以點擊頁面左側的series來只顯示我們需要的條目。我發現第七個搜索結果有點意思。 點進去看看 等我們閱讀完摘要和實驗組的處理方法,確定該數據符合我們的需求,就可以點擊Analyze with GEO2R,進入下面的頁面,利用NCBI提供的工具進行數據分析。
接下來,我們點擊Define groups,輸入兩個分組,分別是normal和resistant,并分別將普通的細胞系和耐藥細胞系點擊分入這兩組,分組完畢后,點擊save all results,獲取兩組之間的差異表達基因(稍等幾分鐘)。 得到如下的結果,把他們全選并復制,粘貼到記事本中,保存為output.txt。 接著我們將output.txt導入到EXCEL中(數據->自文本,選擇output.txt按默認設置導入即可)。
待數據導入完成,我們全選數據表,點擊EXCEL的篩選功能,準備對數據進行篩選。 下一步,我們需要對差異表達基因的數據進行進一步的篩選。在這里,我們將p.value(p值,象征著差異的顯著性)和logFC(log2處理過的fold change值,象征著差異的倍數)設定為: p.value<0.01,><-2 or="" logfc="">2。即差異表達非常顯著,并且差異表達在4倍或-4倍以上。具體做法參見下圖。
篩選p.value: 篩選logFC: 最后我們可以在EXCEL左下角的狀態欄看到,一共篩選出來46個條目。 在53617條記錄中找到46個差異
讓我們回過頭來看篩選完的數據表GB_ACC這列可以看到很多類似NM_開頭的序號,這些序號可以在NCBI上直接查詢到對應的基因是什么,可以認為是該基因的身份證。 我們嘗試一下,將第一個序號放到NCBI上搜索: 這就是一個在耐紫杉醇細胞中差異表達的一個基因。到這里,其實已經可以作為一個課題的開頭了,但是為了我們高大上的追求,我們還有很多事情可以做。
|