您的位置 首页 kreess

小數據撬動大基金,“黃金”數據庫大盤點

本文首發於“解螺旋”微信公眾號轉載請註明:解螺旋·臨床醫生科研成長平臺不得不感慨,現代信息技術造就的海量數據給瞭我們許多便利,越來越多的醫學研究項目認識到數據的力量,將重心

本文首發於“解螺旋”微信公眾號

轉載請註明:解螺旋·臨床醫生科研成長平臺

不得不感慨,現代信息技術造就的海量數據給瞭我們許多便利,越來越多的醫學研究項目認識到數據的力量,將重心轉移到數據上來。已發表數據可以利用起來,做新的分析挖掘,找出事物之間未曾發現的關聯;或者整合零散的信息建立新的數據庫;或開發新的算法,成為更有力的數據分析工具。

這不,2017年國自然面上項目中,也見到瞭一些基於數據的研究項目。

對於我們未能跨進面上項目大門的小盆友來說,利用現有數據做點研究是再便利不過的打基礎之路。

之前我們介紹瞭一些生信數據庫的查找方法(《來聊一聊那些五花八門的生信數據庫》)。這麼多數據庫令人眼花繚亂,而且還正如雨後春筍般不停地增長,該如何選擇呢?

數據庫的“黃金集合”

Nucleic Acid Research(NAR)第24版特刊,特意總結瞭過去的12年裡,一些經受住時間考驗、引用量較高的數據庫,它們為各領域的研究者服務,產生瞭許多優質成果,稱為“黃金集合(Golden Set)”。

它們大多是一些綜合數據庫,覆蓋面較廣。正因如此,它們也能被投入更多的資本來維護,是以質量較高。

以下就是這些被NAR稱為“黃金集合”的榜單,如果有你感興越的,可以嘗試利用起來。

第一列No.是該數據庫在NAR收錄庫中的編號,最後一列是在NAR中發佈及更新報告的年份,中間則是數據庫名稱、鏈接及描述。

我們用的最多的是GenBank,因為它和PubMed集成在NCBI。就以它為例,看看數據庫的基本操作。

常用數據庫的基本操作

查找基因、mRNA、Promoter

GenBank最常用的功能,查基因、mRNA、Promoter,用的是Map viewer(反正都集成在一個網站裡,網址為: http://www.ncbi.nlm.nih.gov/mapview/index.html )。

1.在頁面下拉菜單裡選擇物種,for後面填寫你的目的基因,而後點擊“Go”。

2. 在Quick Filter中,點擊Gene前面的小方框,並點擊Filter,結果如下圖所示。

結果中,染色體的紅色區域即為你的目的基因所處位置。

3. 點擊第一條序列(即reference)對應的“Genes Seq”,出現新的頁面,頁面如下圖所示:

點擊上圖中的Download/View Sequence/Evidence,即可下載查看序列等功能,結果如圖所示:

在上圖中的Sequence Format(序列輸出格式)中有一個下拉式選擇菜單,默認的為FASTA格式,但還是推薦大傢選擇GenBank格式,因為這個格式提供瞭很多基因的信息,而FASTA格式隻有基因序列。

4. 在Sequence Format後選擇GenBank,點擊下方的Display,目的基因的相關信息和序列結果如下圖所示。

網頁裡也可以看到基因長度、基因序列以及這個基因是如何被報道出來的等各種信息。

用KEGG畫通路圖

有瞭基因感覺還差瞭點什麼,對就是通路。信號通路的查詢繪制,正是KEGG的拿手好戲。比如說,前期已經有瞭實驗結果:構建瞭沉默新基因A表達的質粒,轉染肺癌549細胞系,確定敲減效率,上流式細胞儀檢測,發現細胞周期被阻滯(cell cycle arrest)在S期。那麼我們現在需要從細胞周期的角度闡明新基因A促進肺癌細胞系549增殖的分子機制,怎麼做?

1. 首先打開KEGG主頁:http://www.kegg.jp/,點擊下圖框中的KEGG PATHWAY鏈接。

2. 輸入關鍵詞:cell cycle

3. 出現結果:

4. 點擊map 04110,出現KEGG對cell cycle的描述:

5. 所有物種中相關基因的詳細列表

每個基因在KEGG數據庫裡面有對應的ID,例如CCDN1對應的ID號:K04503,CDK4對應K02089,我們後面會用到。

相關的不同模塊、疾病、日本Kanehisa Laboratories的工作人員整理這個信息庫所參考的文獻,其它的數據庫,例如GO:0000278,可以用Gene Ontology這個數據庫直接查到在這個數據庫中的信息:

6. 開始查基因A的下遊機制,直接點擊圖,會出現相信的信號通路:

這是KEGG裡面整理出來的cell cycle相關信號通路圖,細胞周期中S期的相關基因(我們上面舉的例子是A沉默後可以把細胞阻滯在S期),每個可以點擊,例如:CDK2,查看這個基因的相關信息。

值得挖掘的小數據庫

另外還有許多疾病特異性數據庫,或稱位點特異性數據庫(Locus specific databases,LSDBs),它們專門收錄某一疾病或表型最相關的一組或幾組基因的數據,被認為是特定領域內更具專業、更權威的數據庫。

但也有學者指出,這些數據庫由於管理團隊力量有強有弱,便也造成數據質量參差不齊。有些數據庫已發佈好幾年,但以其為基礎做出的研究成果卻很少,甚至沒有。當然這除卻質量原因外,也和該領域的研究熱度以及該數據庫的關註度有關。

如果我們想利用這些數據庫搞點事情,就需要多查查既往文獻中,大傢是如何利用它們的,出過哪些成果,再結合自己的研究經驗做出判斷。善於挖掘的話,也許能從這些集中於某一研究領域的數據庫裡挖出寶藏。

下面再來分享一些利用位點特異性數據庫發表的成果,看看別人是怎麼運用它們的。多半是要跟幾個數據庫,尤其是一些大型綜合數據庫結合使用,相互印證。

2型糖尿病:T2D Knowledge portal

http://www.type2diabetesgenetics.org/

2型糖尿病(T2D)及相關性狀的數據庫,可瀏覽、檢索、分析與T2D相關的基因信息。目前已有22個數據集,覆蓋47種性狀。

來看這份今年發表的研究:

編碼核纖層蛋白lamin A和lamin C的LMNA基因發生突變,會導致多種核纖層蛋白病,包括肌營養不良、擴張性心肌病、胰島素抵抗等。

研究者先在ExAC上找到169個突變,其中37個有疾病相關性,包括p.I299V (等位基因0.0402%), p.G602S (0.0262%) and p.R644C (0.124%),提示某些LMNA突變比以前所知的更為常見。

ExAC是一個外顯子序列的綜合數據庫,集成瞭多個大型研究項目的外顯子數據,覆蓋多種疾病。

接著在T2D Knowledge Portal中獨立分析LMNA突變,發現p.G602S與2型糖尿病顯著相關(p = 0.02; odds ratio = 4.58),且在非裔美國人中等位基因頻率更高(0.297%),可認為是非裔美國人的T2D風險預測因子。

阿爾茲海默病:AlzGene

http://www.alzgene.org/

AlzGene是AlzForum(阿茲海默病論壇)下的一個收錄基因組數據的數據庫。AlzForum作為AD的各種資源、信息的集散地,已經運營瞭近二十年。AlzGene收錄的開源數據也相當豐富:

下面是今年發表的利用AlzGene做的研究。

前期有一些研究發現,BIN1基因的rs744373多態性在歐洲血統的樣本中與晚發阿茲海默病有相關性,但另有一些研究則表示未觀察到rs744373與高加索人種、東亞人種相關。但這些研究的樣本量較小,說服力不足。

研究者們檢索瞭AlzGene,還有PubMed,MEDLINE,共收集瞭11832例LOAD患者及18133例對照,重新分析瞭二者的相關性。這份研究支持rs744373多態性與LOAD的相關性,並且沒有觀察到亞州人與高加索人的差異。

LncRNA相關疾病:LncRNADisease

http://www.cuilab.cn/lncrnadisease

隨著近年來lncRNA研究的火熱,越來越多的研究開始探索它們與疾病的關系。lncRNA失調可能與多種疾病相關,包括癌癥、心血管疾病、神經退行性疾病等。北京大學的崔慶華教授團隊建立瞭這個數據庫,收錄lncRNA – 疾病相關數據,並集合瞭一些工具分析新的lncRNA – 疾病相關性。

下面這份研究則是血清lncRNA作為鼻咽癌的生物標志物,今年發表在Oncotarget上。

無創性診斷也是近年的熱門研究,多種疾病尤其癌癥都想從lncRNA入手找到可用於診斷及預後的生物標志物。本研究先在LncRNADisease數據庫中,以“nasopharyngeal carcinoma”為關鍵詞,檢索到38個差異表達的lncRNA。

接下來招募瞭101名鼻咽癌(NPC)患者,20名慢性鼻咽炎患者,20名EB病毒攜帶者及101名健康對照受試者。取血清樣本,對這38個NPC相關的lncRNA進行qRT-PCR的篩查。最後找到循環系統中,MALAT1、AFAP1-AS1和AL359062 這3個lncRNA聯用,可能可以作為NPC的診斷及預後標志物。

免疫缺陷病:IDbases

http://structure.bmc.lu.se/idbase/index.php

IDbases是收錄能引起免疫缺陷的基因變異及相關臨床表現的數據庫,數據是從文獻中收集而來,或由研究者提交。現有7292名患者的數據。

嚴重聯合免疫缺陷病(severe combine immune deficiency, SCID) 是一組由於基因突變引起的T淋巴細胞和B淋巴細胞發育及功能障礙的先天性免疫缺陷性疾病,預後很差。研究者招募瞭147名患者做個隊列研究,希望能找出有與診斷年齡和癥狀首發到確診的時間的臨床特征。

其中,B淋巴細胞計數的陽性與陰性臨界值還未有公認的標準,於是研究者們通過基因分型來鑒定。共找到瞭88個突變位點,在HGMD Pro version 2016.4和IDbases兩個數據庫中檢索,確定其中有29個突變尚未有報道。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部