
08月01 轉錄調控研究中公共數據整合分析思路
分析思路1
? ? ? ?共表達分析中,整合大量相關(guān)公共樣本測序數據,可構建出相較于常規樣本量下可靠度更高的基因共表達網(wǎng)絡(luò ),從而基于該網(wǎng)絡(luò )進(jìn)行更加準確的后續分析:a)預測目標轉錄因子的下游調控基因、目標調控網(wǎng)絡(luò )中的關(guān)鍵轉錄因子;b)預測ncRNA與mRNA之間的靶向關(guān)系;c)基于網(wǎng)絡(luò )中已知功能基因推測同網(wǎng)絡(luò )中其他功能未知基因功能;e)?將每個(gè)共表達模塊分別作為一個(gè)整體,計算其與各組織或各發(fā)育時(shí)間點(diǎn)之間的相關(guān)性,建立各組織相關(guān)或各時(shí)期相關(guān)基因表達網(wǎng)絡(luò )……
思路解析:
一般認為,在功能上具有相關(guān)性的基因在生物體內具有相似的表達模式,比如轉錄因子與其下游調控基因、lncRNA與其反式調控的靶基因、處于同一代謝通路的基因等在功能上都具有相關(guān)性,因此,研究者可根據每個(gè)基因的表達模式,來(lái)判斷上述幾種相互關(guān)系。
生信分析中,研究者可使用共表達分析的方法,基于轉錄組測序數據,分析每個(gè)基因的表達模式,最終將不同的基因劃入各自所在的表達模式網(wǎng)絡(luò )中,常用的共表達分析方法主要有兩種WGCNA與k-means,大樣本量下(15組以上的樣本)建議使用WGCNA,該算法相較于K-means,采用對相關(guān)系數取冪加權處理、考慮兩個(gè)基因間的間接相關(guān)等優(yōu)化算法,使得構建的共表達網(wǎng)絡(luò )更加符合基因調控網(wǎng)絡(luò )的無(wú)尺度網(wǎng)絡(luò )分布(scale-free networks)、基因間可間接調控等特征。
無(wú)論是使用哪種方法進(jìn)行共表達分析,從統計學(xué)的角度來(lái)看,樣本量越大,預測的基因表達模式分辨率更高,構建的共表達網(wǎng)絡(luò )也就越可靠。受限于項目經(jīng)費,很多研究者便借助公共數據庫擴充這類(lèi)共表達分析中的樣本量。
支持文獻思路概述:
a) Jennnifer等人鑒定了Specialized Metabiolic(后面簡(jiǎn)稱(chēng)SM)代謝通路相關(guān)基因,此類(lèi)基因種類(lèi)較少,且序列保守性較低,難以通過(guò)常規的序列同源比對的方法預測,因此研究者采用了基于基因表達量的共表達分析方法,參考少數已知功能基因,鑒定存在于不同植物中的SM代謝相關(guān)基因以及SM代謝網(wǎng)絡(luò )。研究者搜集了8個(gè)植物物種的10個(gè)基因共表達數據集合的21,876個(gè)實(shí)驗的基因芯片和RNA-seq公共數據,構建了各個(gè)物種中高可靠度的基因共表達模塊。為了說(shuō)明本研究鑒定SM途徑方法的可靠性,篩選了甲硫氨酸來(lái)源的脂肪族硫代葡萄糖苷生物合成途徑(metGSL)及基因,與鑒定的共表達基因模塊進(jìn)行比較分析。在擬南芥中,共表達基因模塊鑒定了metGSL生物合成每一步的基因,以及一個(gè)特異的轉運子和3個(gè)轉錄因子。比如,在最小的N1(共17個(gè)基因)網(wǎng)絡(luò )中,metGSL途徑的34個(gè)酶基因中14個(gè)均在這個(gè)模塊中,該模塊中只有3個(gè)基因是功能上未鑒定屬于metGCL的。在網(wǎng)絡(luò )中,還發(fā)現參與metGSL相關(guān)生化過(guò)程的一些基因,如激酶APK1和APK2、細胞色素P450基因CYP79B2和CYP79B3。因此,利用該研究中建立的共表達網(wǎng)絡(luò )可較為準確預測SM代謝通路相關(guān)基因,該成果發(fā)表于The Plant Cell雜志【文獻詳細解讀見(jiàn)附件1】。
共表達基因模塊重現擬南芥metGSL生物合成途
b)Yu C等人,為了揭示與玉米子葉發(fā)育各個(gè)時(shí)期相關(guān)的轉錄因子-調控基因(之后簡(jiǎn)稱(chēng)TF-TFBS)調控網(wǎng)絡(luò ),利用公共數據,將樣本量從9組個(gè)擴充至22組,進(jìn)行WGCNA分析,建立了與玉米子葉發(fā)育各個(gè)時(shí)期相關(guān)共表達模塊?;诠脖磉_信息,并參考基因GO注釋、TF-TFBS數據庫(TRANSFAC、JASPAR、AthaMap等),總共得到176個(gè)TF-TFBS,成果發(fā)表于PNAS雜志?!?strong>原文題目見(jiàn)附件2】
TF-TFBS預測過(guò)程
c)Wen Z等人,為了鑒定與大鼠各個(gè)發(fā)育時(shí)期各個(gè)組織相關(guān)的ncRNA及其與mRNA共同參與的調控網(wǎng)絡(luò ),從GEO數據庫中下載得到Ying等人上傳的原始轉錄組測序數據(GSE53960),數據集中包含來(lái)自四個(gè)發(fā)育時(shí)間點(diǎn)的32只大鼠的320個(gè)bodymap樣本的轉錄組測序數據。首先基于測序數據進(jìn)行轉錄本組裝、定量、ncRNA鑒定、差異表達等前期分析,然后基于基因定量結果,使用方差分析(analysis variance,ANVOA)鑒定不同的發(fā)育時(shí)期、不同的組織部位中或性別間顯著(zhù)差異的基因(Benjamin-Hochberg corrected p-value < 0.05),鑒定獲得的差異基因即為時(shí)期相關(guān)、組織相關(guān)或性別發(fā)育相關(guān)基因,之后利用WGCNA分別對上述各個(gè)基因集構建共表達網(wǎng)路模塊,最終鑒定得到32個(gè)器官發(fā)育相關(guān)模塊、4個(gè)性別發(fā)育相關(guān)模塊、14個(gè)發(fā)育時(shí)期相關(guān)模塊。該成果發(fā)表于Scientific Reports雜志【文獻詳細解讀見(jiàn)附件1】。
發(fā)育時(shí)期相關(guān)共表達模塊
d)LiJ等人為了全面鑒定豬的長(cháng)鏈非編碼RNA(lincRNAs)和探索lincRNAs在豬植入前胚胎發(fā)育(PED)過(guò)程中可能發(fā)揮的作用,從NCBI-SRA數據庫中下載得到五個(gè)豬RNA-Seq數據集?;跍y序數據進(jìn)行轉錄本組裝和篩選后獲得了7,618個(gè)lincRNAs。在分析了豬lincRNAs的結構特點(diǎn)、表達模式、組織特異性和順式作用后,對胚胎發(fā)育階段相關(guān)lincRNAs和mRNAs進(jìn)行了WGCNA分析,鑒定出了23個(gè)共表達模塊,其中5個(gè)顯示發(fā)育階段特異性。qRT-PCR分析4細胞階段特異性模塊中的樞紐基因集后發(fā)現了兩個(gè)與PED密切相關(guān)的lincRNA:TCONS_00166370 和TCONS_00020255。該成果發(fā)表于Scientific Reports雜志【文獻詳細解讀見(jiàn)附件1】。
共表達網(wǎng)絡(luò )分析PED相關(guān)lincRNAs
分析思路2
????研究某一類(lèi)基因的轉錄水平在不同處理下(或不同組織部位間、或不同發(fā)育時(shí)間點(diǎn)等)的變化規律,可整合多個(gè)類(lèi)似研究中的公共測序數據來(lái)共同揭示該變化規律,使結果更加可靠。
思路解析:
該思路相對比較簡(jiǎn)單,但是若論點(diǎn)新穎,多個(gè)項目或多個(gè)物種的數據均對此論點(diǎn)支持,該分析也可單獨成文;該分析也可作為對常規轉錄調控分析的補充,從常規分析得到的一些相關(guān)基因中挑選一些關(guān)鍵基因,在其他物種、其他類(lèi)似項目中尋找對該類(lèi)關(guān)鍵基因在該項目中某種變化規律的支持證據,可以提升常規分析的廣度。
支持文獻思路概述:
?a)sweet基因家族編碼一類(lèi)外排轉運蛋白(efflux transporter),與糖運輸、韌皮部裝載、宿主-病原菌互作、生殖組織發(fā)育相關(guān),這類(lèi)基因的研究主要集中在水稻與擬南芥中,而在大豆中的研究幾乎是空白。
Gunvant P等人搜集了公共數據庫中兩個(gè)大豆RNA-seq數據集,分別包含14、10個(gè)樣本,均涵蓋生殖組織(花、花芽、種子等)與營(yíng)養組織(根、莖、幼苗等)。研究者首先基于水稻、擬南芥的sweet家族基因序列,通過(guò)blast比對,在大豆的基因組中鑒定得到52個(gè)大豆sweet家族基因,并對該類(lèi)基因在染色體上的分布和編碼蛋白的domain結構與其他13個(gè)物種(涵蓋單子葉、雙子葉、藻類(lèi)、苔蘚類(lèi))中sweet基因家族的進(jìn)化關(guān)系進(jìn)行了簡(jiǎn)單分析。
兩個(gè)數據集中大豆的RNA-seq數據分析結果表明,大部分大豆sweet家族基因在種子和花中轉錄上調,所有sweet基因在到達種子灌漿期前轉錄水平一直上調,之后到達種子成熟前一直下調,這與之前的在其他物種中研究得到的該基因家族與生殖組織發(fā)育相關(guān)的結論是一致的。該成果發(fā)表與BMC Genomics雜志。
b)Matthijs M等人通過(guò)分析自測RNA-seq數據在三角褐指藻發(fā)現了一類(lèi)可響應氮脅迫的新型轉錄因子RGQ1,為了進(jìn)一步驗證該轉錄因子是否在其他硅藻中存在并且也同樣具有響應氮脅迫的功能,研究者從公共數據庫中下載到了其他兩種硅藻類(lèi)似研究中的數據,發(fā)現,RGQ1在這兩種硅藻中也存在,且參與了對氮脅迫的響應。成果表于Plant Physiology雜志?!?strong>詳細解讀結果見(jiàn)附件1】
其他分析思路
整合同一物種公共測序數據,構建物種完備轉錄本序列參考集,用于后續功能分析。
支撐文獻:
- Iyer MK et al. The landscape of long noncoding RNAs in the human transcriptome. ??Nat Genet. ?2015 ?
文獻概要:整合來(lái)源25個(gè)項目,18個(gè)組織,7256個(gè)樣品RNA測序數據,使用cufflinks分別重構各組織轉錄本,之后使用用戶(hù)自己開(kāi)發(fā)的meta-assembly算法找出各組織中高豐度轉錄本,最后使用cuffmerge對各樣本組裝得到的轉錄本進(jìn)行合并,最終建立高質(zhì)量的人類(lèi)轉錄本序列參考集,用于后續功能分析。
- Wang M et al. ?Long noncoding RNAs and their proposed functions in fibre development of cotton (Gossypium spp.). ?New Phytol. 2015
文獻概要:整合170多個(gè)棉屬RNA-seq數據集,以海島考基因組為參考,使用tophat+cufflinks流程進(jìn)行轉錄本重構(各樣本分開(kāi)組裝)并預測其中的lncRNA,之后進(jìn)行棉纖維發(fā)育相關(guān)lncRNA鑒定。
mRNA-ncRNA聯(lián)合分析中,利用公共數據補充其中一種類(lèi)型的RNA測序數據
支撐文獻:
- Liu X et al. MicroRNA-mRNA regulatory networking fine-tunes the porcine muscle fiber type, muscular mitochondrial respiratory and metabolic enzyme activities. ?BMC Genomics. 2016
文獻概要:聯(lián)合之前項目的高肉品與低肉品豬mRNA測序數據與本次項目中的miRNA測序數據,并通過(guò)pearson相關(guān)系數建立miRNA與豬肉品質(zhì)各項指標之間的聯(lián)系,最終建立與豬肉品質(zhì)各項指標相關(guān)的mRNA-miRNA調控網(wǎng)絡(luò )。
- Yin H et al. Phylogenetic tree-informed microRNAome analysis uncovers conserved and lineage-specific miRNAs in Camellia during floral organ development.J Exp Bot.2016
文獻概要:研究者取紅杜鵑山茶花的葉、雄蕊、雌蕊心皮、花瓣、花芽5個(gè)部位進(jìn)行了miRNA測序,之前項目中組裝得到的紅杜鵑山茶花的轉錄本序列為參考,進(jìn)行了novel miRNA的預測。之后通過(guò)miRNA表達模式的分析,鑒定到了兩類(lèi)分別傾向在雄蕊或雌蕊中特異高表達的miRNA,進(jìn)一步利用miRNA靶基因的功能信息,揭示了這些miRNA在花器官發(fā)育過(guò)程中發(fā)揮的生物學(xué)功能。
附件2公共數據整合分析文獻列表
整合公共數據建立物種基因共表達網(wǎng)絡(luò )
[1] Wisecaver JH?et al. A Global Coexpression Network Approach for Connecting Genes to Specialized Metabolic Pathways in Plants. Plant Cell.?2017
[2]Wen Z et al.Expression profiling and functional annotation of noncoding genes across 11 distinct organs in rat development.Sci Rep.?2016
[3] Li?J?et al. Identification and functional analysis of long intergenic noncoding RNA genes in porcine pre-implantation embryonic development.?Sci Rep. 2016
[4] Yu?C et al. Transcriptome dynamics of developing maize leaves and genomewide prediction of cis elements and their cognate transcription factors. Proc Natl Acad Sci?. 2015
[5] Khan FA et al. Analysis of Bos taurus and Sus scrofa X and Y chromosome transcriptome highlights reproductive driver genes. ??Oncotarget.?2017
?
利用公共數據,研究基因家族轉錄水平變化規律
[6] Patil G. ?et al. Soybean (Glycine max) SWEET gene family: insights through comparative genomics, transcriptome profiling and whole genome re-sequence analysis. BMC Genomics.?2015
[7]Matthijs M?et al.Profiling of the Early Nitrogen Stress Response in the Diatom Phaeodactylum tricornutum Reveals a Novel Family of RING-Domain Transcription Factors. Plant Physiol.?2016
基于公共數據建立物種完備轉錄組本參考序列
[8]Wang M et al. Long noncoding RNAs and their proposed functions in fibre development of cotton (Gossypium spp.). New Phytol. 2015
[9]Iyer MK et al. The landscape of long noncoding RNAs in the human transcriptome. ??Nat Genet.??2015
[10]Hong Y, et al.?Genome-wide identification and characterization of long intergenic noncoding RNAs and their potential association with larval development in the Pacific oyster. Sci Rep,?2016.
[11] Li J, et al.?Identification and functional analysis of long intergenic noncoding RNA genes in porcine pre-implantation embryonic development.?Sci Rep,2016.
?
基于公共數據進(jìn)行ncRNA-mRNA聯(lián)合分析
[12] Xu W et al. Genomic DNA Methylation Analyses Reveal the Distinct Profiles in Castor Bean Seeds with Persistent Endosperms. Plant Physiol.?2016
[13] Liu X et al. MicroRNA-mRNA regulatory networking fine-tunes the porcine muscle fiber type, muscular mitochondrial respiratory and metabolic enzyme activities. BMC Genomics.?2016
?
其他分析思路
[14] Sudmant PH, et al.?Meta-analysis of RNA-seq expression data?across species, tissues and studies. Genome Biol, 2015.
[15] Lu L, et al. The goose genome sequence leads to insights?into the evolution of waterfowl and susceptibility?to fatty liver. Genome Biol,?2015.
[16] Shin SC, et al.?Dynamic shifts in occupancy by TAL1?are guided by GATA factors and drive large-scale reprogramming of gene expression during hematopoiesis.?Genome?Res,?2014
[17] Xie D, et al. Rewirable gene regulatory networks in the?preimplantation embryonic development?of three species.?Genome Res,?2010