
03月02 水稻信息網(wǎng)(RIGW):一個(gè)全面的秈稻基因組生物信息學(xué)平臺
英文名:Rice ?Information ?GateWay ?(RIGW): ?a ?comprehensive bioinformatics platform for indica rice genomes
中文名:水稻信息網(wǎng)(RIGW):一個(gè)全面的秈稻基因組生物信息學(xué)平臺
發(fā)表雜志:MOLECULAR PLANT
影響因子:8.827
Oryza sativa subsp.秈稻和O. sativa subsp. 粳稻是亞洲栽培稻的兩個(gè)亞種,其中秈稻的種植面積更廣,遺傳多樣性也更高。在過(guò)去的幾年,水稻注釋項目數據庫(RAP-DB)(Ohyanagi等,2006)和密歇根州立大學(xué)水稻基因組注釋項目(MSU-RGAP)(Ouyang等,2007)是兩個(gè)受歡迎的數據庫, 基于粳稻品種Nipponbare(國際水稻基因組測序項目,2005)的統一參考基因組的基因組和轉錄組數據。北京基因組研究所的水稻信息系統(BGI-RIS)(Zhao等,2004)是秈稻栽培品種93-11的可用資源,但由于缺乏高質(zhì)量的秈稻參考基因組,其應用受到限制。 為了彌補這一缺點(diǎn),研究人員構建了一個(gè)綜合全面的平臺:Rice Information GateWay(RIGW,http://rice.hzau.edu.cn/),提供基因組學(xué),轉錄組學(xué),蛋白質(zhì) – 蛋白質(zhì)相互作用(PPIs),代謝網(wǎng)絡(luò ),代謝物和計算工具,以最新的秈稻珍山97(ZS97)和明恢63(MH63)(Zhang et al.,2016)為參考基因組。RIGW通過(guò)直觀(guān)的Web的界面,為水稻研究提供豐富的基因組學(xué)和其他組學(xué)數據。
RIGW在Linux操作系統和Apache Tomcat Web服務(wù)器(http://tomcat.apache.org/)中實(shí)現。 所有的基因組數據,注釋?zhuān)滴?,基因表達,PPIs,代謝物和文獻存儲在MySQL數據庫(http://www.mysql.com/)中。 圖1A顯示了RIGW中的體系結構,一些有代表性的資源和計算工具。
圖A RIGW體系結構
RIGW上部署GBrowse(https://github.com/GMOD/GBrowse)用于ZS97和MH63基因組和轉錄組數據的可視化(圖1B),分別選擇了包括基因注釋和標記葉子、圓錐花序以及芽中的RNA-sequencing。
圖B GBrowse
另外,為ZS97,MH63和Nipponbare基因組之間的比較分析提供了Gbrowse_synteny工具(圖1C),所有位于同一染色體區域的相應注釋可以很容易的并行顯示出來(lái)(每個(gè)基因組都可以設置為參考)。
圖C Gbrowse_synteny工具
研究人員開(kāi)發(fā)了一個(gè)靈活的查詢(xún)界面來(lái)高效地檢索和圖形化顯示各種數據。 例如,提供關(guān)鍵詞的搜索引擎,用戶(hù)輸入關(guān)鍵詞(例如基因位點(diǎn),基因功能)就可以鏈接到詳細頁(yè)面(例如基因位置,基因結構,可變剪接,其他品種水稻中的同源物, 核苷酸和氨基酸序列,基因表達水平等)。 此外, Gene Ontology(Harris等,2004),InterPro域信息,預測亞細胞定位和蛋白質(zhì) – 蛋白質(zhì)相互作用以及外部數據庫鏈接在可以獲得的情況下都列在搜索結果中(圖1D)。 提供局部序列比對搜索工具(BLAST)作為堿基序列的搜索引擎,可以查找在秈稻ZS97,MH63,93-11和粳稻日本晴中的同源序列,比對結果通過(guò)圖形和文本的格式呈現。
圖D 搜索結果展示
在補充表1和RIGW主頁(yè)中列出了ZS97和MH63基因組特征。研究人員根據相關(guān)文獻,在不同品種水稻中手動(dòng)收集了2000多個(gè)克隆的基因,和2500多個(gè)具有詳細注釋信息的水稻代謝物。利用CREP(http://crep.ncpgr.cn/)的數據,研究人員建立了一個(gè)友好的網(wǎng)絡(luò )界面,用于查詢(xún)和顯示ZS97,MH63及其雜種汕優(yōu)63(SY63)生命周期中39個(gè)組織的基因表達水平。對于給定的基因,可獲得的所有組織表達量信息,這極大地促進(jìn)了其表達模式的研究。由于全基因組PPI網(wǎng)絡(luò )對研究整體細胞反應非常有用,研究人員從公共數據庫收集了1,871,563個(gè)非冗余水稻PPIs(其中929個(gè)為實(shí)驗確定的PPIs),包括PRIN(Gu et al.,2011), RiceNet(Lee等,2015)以及RIGW中的相關(guān)文獻。用戶(hù)可以在PPI搜索頁(yè)面上提交一個(gè)或多個(gè)ZS97 / MH63 / Nipponbare的基因ID,查詢(xún)相互作用的蛋白質(zhì),可以幫助揭示不同種類(lèi)不同功能蛋白質(zhì)之間的關(guān)系。查詢(xún)蛋白及其互作用Cytoscape(http://www.cytoscape.org/)可視化軟件,不同顏色的點(diǎn)表示不同途徑分類(lèi)(圖1E)。此外,所有日本晴,ZS97和MH63的PPIs都可以從“下載”模塊下載。
圖E Cytoscape可視化顯示蛋白互作網(wǎng)絡(luò )圖
KEGG代謝通路圖是表示代謝反應網(wǎng)絡(luò )信息的圖表,每張圖都匯總了已發(fā)表文獻中的實(shí)驗結果(Kanehisa等,2012)。 基于KEGG Orthology(KO)組,研究人員獲得了ZS97和MH63基因組中的KEGG同源序列,以及它們的代謝途徑。 ZS97和MH63的代謝通路包括四個(gè)類(lèi)別(代謝,遺傳信息處理,環(huán)境信息處理和細胞過(guò)程),每個(gè)類(lèi)別包含許多途徑。 當選擇特定的途徑時(shí),在ZS97和MH63中KEGG同源序列的酶/蛋白質(zhì)用綠色標出(圖1F)。
圖F KEGG代謝通路圖
在RIGW中集成了一系列計算工具,用于比較水稻和其他植物的進(jìn)化、功能分析。 OrthoMCL(Li等人,2003)被用于鑒定植物基因組中的同源物,包括擬南芥,短柄草,玉米,葡萄和高粱。研究人員可以通過(guò)OrthoMCL(e值:1e-5)來(lái)鑒定假定的同源序列和相應的邏輯關(guān)系,并獲得水稻和上述植物中產(chǎn)生緊密相關(guān)蛋白質(zhì)的不連續簇,共鑒定了48,515個(gè)假定的直系同源組,并保存在RIGW中,可以從“下載”模塊獲得。研究人員通過(guò)MCscanX(Wang et al.,2012)確定了在染色體中的同源基因對(e值<1e-10),以及同源基因座以顯示ZS97和MH63基因組中的部分復制區域(圖1G)。研究人員還提供了基因ID轉換工具來(lái)轉換ZS97,MH63,93-11和日本晴之間的直系同源基因ID。此外,該平臺還提供KEGG / GO富集,GO分類(lèi)工具,可進(jìn)行功能富集分析。
圖G ?OrthoMCL植物基因組中的同源物鑒定
為了方便不同水稻品種的基因編輯,研究人員整合了CRISPR-P 2.0(Liu et al.,2017)用于設計各種規律成簇的間隔短回文重復(CRISPR)—Cas系統的指導性RNA序列,實(shí)驗結果如圖1H所示。
圖H CRISPR-P 2.0基因編輯工具
最后,RIGW還提供了一個(gè)文本挖掘工具,用戶(hù)可通過(guò)基因名稱(chēng)或關(guān)鍵詞搜索獲得的27,831個(gè)水稻相關(guān)文獻,文獻來(lái)源于PubMed(圖1I)。
圖I 文本挖掘工具
總而言之,研究人員建立了一個(gè)全面的生物信息學(xué)平臺RIGW,提供可在GBrowse視圖下查看的ZS97和MH63基因組以及其他組學(xué)數據。 RIGW還提供了秈稻,粳稻和其他植物的同源染色體。 并且為用戶(hù)提供了友好的網(wǎng)頁(yè)界面來(lái)顯示水稻中預測的PPIs,ZS97 / MH63的代謝途徑,CRISPR-Cas單引導RNA設計工具,和GO富集。 此外,所有的基因組序列和注釋都可以自由訪(fǎng)問(wèn),同時(shí),還提供與其他公共數據庫的有效鏈接。研究人員即將整合更多的可用資源,并通過(guò)新的工具擴展其功能,使RIGW成為一個(gè)綜合的生物信息學(xué)平臺,為水稻研究人員服務(wù)。 RIGW免費使用網(wǎng)址是http://rice.hzau.edu.cn/。
百邁客數據庫搭建業(yè)務(wù)
構樹(shù)數據庫(papyrifera.biocloud.net)
大豆數據庫(soybean-resources.cn)
草業(yè)數據庫(grassgene.biocloud.net)
參考文獻:
Song J.-M., Lei Y., Shu C.-C., Ding Y., Xing F., Liu H., Wang J., Xie W.,Zhang J., and Chen L.-L. (2017). Rice Information GateWay (RIGW): A Comprehensive Bioinformatics Platform for Indica Rice Genomes. Mol. Plant. doi: 10.1016/j.molp.2017.10.003.
轉錄調控事業(yè)部 賴(lài)娟娟 | 文案
吳戈宇 | 審核
圖片來(lái)自網(wǎng)絡(luò ),侵刪