您的位置 首页 kreess

宏基因組分析-基於binning

一、介紹宏基因組 ( Metagenome) 指特定環境下所有生物遺傳物質的總和。它包含瞭可培養的和未可培養的微生物的基因。一般從環境樣品中提取基因組DNA, 進行高通量測

一、介紹

宏基因組 ( Metagenome) 指特定環境下所有生物遺傳物質的總和。它包含瞭可培養的和未可培養的微生物的基因。一般從環境樣品中提取基因組DNA, 進行高通量測序,從而分析微生物多樣性、種群結構、功能信息、與環境之間的關系等。

宏基因組的分析目前主要包括三種方法:基於組裝分析、基於reads分析、基於bin分析。

下面我們介紹基於bin的分析方法。

二、分析流程介紹

宏基因組分箱(Binning)是將序列組裝得到的Contigs按物種分開歸類的過程。宏基因組分箱技術有助於獲得不可培養微生物的全基因組序列,獲得新物種的基因組序列和功能,預測未知物種的培養方法等等。

分箱軟件通常基於GC含量、核苷酸頻率、關鍵的單拷貝基因序列等組成性特征;豐度分佈差異,認為源自同一基因組的序列 (contigs),在同一樣本中應具有一致的豐度,而在不同的樣本之間,它們又應該具有相似的豐度分佈;兩種策略進行分箱。

基於Binning的宏基因組分析流程,數據分析從下機原始序列開始,首先對原始序列進行去接頭、 質量剪切以及去除污染等優化處理。然後使用優質序列進行拼接組裝得到Contigs;使用metabat2和maxbin2軟件分別對每個樣本的Contigs進行分箱;不同軟件分箱得到的bin進行合並(binning_refiner)、提純(MAGpurify);然後將所有樣優化後的bin進行去冗餘(dRep);而後分別從物種和功能方面進行信息統計。

三、詳細流程

1. 數據質量控制,為瞭提高後續分析質量和可靠性,對原始測序數據進行以下清洗處理, 獲取用於後續分析的有效數據(Clean Data)。具體處理步驟如下:使用fastp軟件去除質量低的reads,過濾掉質控後長度較低的reads,同時去掉接頭序列;如果樣品來源於宿主(比如人或動物的糞便),而且該宿主本身的基因組已被發表, 則通過軟件Bowtie2軟件將reads比對宿主DNA序列,並去除比對相似性高的污染reads;

2. 序列組裝: 使用Megahit軟件使用不同kmer對優化序列進行組裝得到Contigs;

3. Bin生成:采用metaWRAP環境中binning模塊的metabat2和maxbin2方法對contig進行分箱。

4. 合並不同軟件得到的bin:采用binning_refiner軟件將兩個軟件生成的bin進行合並,重新生成bin,並提純bin。

5. 去冗餘和篩選:合並所有樣本中得到的bins,用CheckM中的lineage_wf流程評估bins的完成度和污染度,並用dRep軟件對bins進行去冗餘。

6. Bin豐度計算:在metaWRAP環境中,使用metaWRAP的quant_bins模塊計算每個Bin的豐度。

7. Bin物種註釋:使用 PhyloPhlAn3軟件將bins與SGB.Jul20比對,獲取每個bin的物種分類信息。

8. Bin功能註釋:基於Prokka軟件得到的蛋白序列信息,用emapper軟件和eggNOG數據庫進行比對,得到COG、KEGG、CAZy、GO的信息,采用ARI軟件和CARD數據庫進行比對得到抗性基因信息,進行基因個數的統計,並進行可視化。

四、主要分析結果

1、Bin信息統計

Bin信息統計(示例)

第一列:bin編號;第二列:bin完成度;第三列:bin污染度;第四列:Contig N50;第五列:Contig N90;第六列:一個Bin的所有Contig長度之和,即該基因組草圖的總長度;第七列:GC含量是指一個Bin中GC堿基占總堿基的比例。

2、GC-depth圖

Contig GC含量和depth深度數據即可進行可視化,繪制Bin中每個contig的散點圖。此圖可以用來判斷分箱效果和污染情況。

Binned contigs可視化

註:橫坐標是contig的GC含量;縱坐標是contig depth;一個點代表一個contig,相同顏色的contig來自同一個bin。

3、GOLevel2基因數統計

GO提供瞭一系列的語義(terms)用於描繪基因、基因產物的特點,這些語義通過三個概念維度展開:細胞學組件(Cellular Component)用於描述某個節點的亞細胞結構、位置和大分子復合物;分子功能(molecular function),用於描述基因以及基因產物的功能;生物學途徑(biological process)指的是分子功能的有序組合以實現更復雜的生物功能,

GO註釋統計圖

註:該圖說明的是其中一個bin預測基因所屬GO的情況;縱坐標是數量;橫坐標是GO;顏色是GO分類;柱子越高,該GO中包含的預測基因(CDS)越多。

4、KEGGLevel2基因數統計

KEGG PATHWAY 數據庫中,將生物代謝通路劃分為 6 類,分別為:細胞過程(Cellular Processes)、環境信息處理(Environmental Information Processing)、遺傳信息處理(Genetic Information Processing)、人類疾病(Human Diseases)、新陳代謝(Metabolism)、生物體系統(Organismal Systems),其中每類又被系統分類為二、三、四層。第二層目前包括有 57個種子 pathway;第三層即為其代謝通路圖;第四層為每個代謝通路圖的具體註釋信息。

KEGG pathway level2水平CDS數量可視化

註:橫坐標是KEGG level2水平CDS數量;縱坐標是KEGG level 2名稱;顏色用於區分KEGG level 1的類型。

4、COG各類別基因數統計

COG,即Clusters of Orthologous Groups of proteins(同源蛋白簇)。COG是由NCBI創建並維護的蛋白數據庫,根據細菌、藻類和真核生物完整基因組的編碼蛋白系統進化關系分類構建而成。通過比對可以將某個蛋白序列註釋到某一個COG中,每一簇COG由直系同源序列構成,從而可以推測該序列的功能。

註:縱坐標是COG level 2分類(字母表示,共26種分類);橫坐標是註釋到的CDS計數;顏色是COG level 1分類(四大類,分別是:細胞過程和信號傳遞、信息儲存和加工、代謝和尚未明確);柱子越長,屬於該分類的預測基因越多。

4、Bin進化樹

使用 PhyloPhlAn3軟件將Bin與SGB.Jul20比對,以獲取Bin之間的進化關系樹和物種註釋。圖中的熱圖展示的是Bin相對豐度信息, 分支不同顏色表示門分類信息。

5、Bin圈圖可視化

利用每個Bin(基於contig)的Prokka蛋白預測信息,功能區註釋信息(含正負鏈、CDS、RNA類型等信息),以及GC content、GC skew的統計結果繪制Circos圈圖,直觀展示整個Bin的功能註釋信息。

註:展示長度最長的20條contigs。從外到內,第一圈表示屬於該bin的contigs,長度用刻度表示,單位為Mbp;第二圈用不同顏色區分contigs上的正鏈和負鏈;第三圈用不同顏色的三角標出tRNA, rRNA以及CDS(編碼蛋白)的編碼區;第四圈標註contigs分段(每1kb)GC含量,其中用不同顏色區分大於和小於所有contigs分段GC含量總平均值;第六圈標註contigs 分段(每1kb)GC skew值,大於和小於0用不同顏色區分。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部