<li id="qqq0q"><tt id="qqq0q"></tt></li>
  • <li id="qqq0q"><tt id="qqq0q"></tt></li>
  • 利用百邁客云挖掘海量公共測序數據的價(jià)值

    近年來(lái),隨著(zhù)測序技術(shù)的不斷升級,測序通量越來(lái)越高,同時(shí)測序成本直線(xiàn)下降,高通量測序技術(shù)逐漸應用在科研、醫療、健康等各個(gè)研究領(lǐng)域。伴隨著(zhù)大數據處理關(guān)鍵技術(shù)的突破和數據共享等契機的發(fā)展,大數據將在促進(jìn)生物學(xué)發(fā)展中發(fā)揮重要的作用。

    測序技術(shù)在生物學(xué)研究中的發(fā)展分成三個(gè)階段:

    第一個(gè)階段:Genome Center唱獨角戲。在這個(gè)方向剛興起的初期,人才儲備較少,產(chǎn)出數據的成本也很大,只有少量的國家支持的Genome Center可以從事這方面的系統研究,做生物信息開(kāi)發(fā)的目的也比較明確,就是為了完成基因組中心所承擔的一些重大國家科研課題。

    第二個(gè)階段:高通量測序技術(shù)的進(jìn)步和基因科技服務(wù)公司的崛起。當很多科學(xué)家看到了有那么多空白的山頭待開(kāi)發(fā),同時(shí)數據產(chǎn)出的成本也大幅降低情況下,科學(xué)家們對組學(xué)研究都躍躍欲試,科技服務(wù)的市場(chǎng)需求就出現了,同時(shí)經(jīng)過(guò)多年的人才儲備,也有了一定數量的技術(shù)人員,為科技服務(wù)公司的出現打下了人力基礎。這個(gè)階段生物信息開(kāi)發(fā)注重的是“pipeline”,這樣能提高服務(wù)的效率,讓公司能更好的發(fā)展。

    第三個(gè)階段:大數據的積累和豐富多樣的個(gè)性化分析需求。隨著(zhù)NGS技術(shù)的不斷發(fā)展,測序成本不斷降低,數據積累也越來(lái)越快,同時(shí)隨著(zhù)科學(xué)家對數據理解的深入,科學(xué)家的思路大大開(kāi)拓,各種個(gè)性化的數據分析想法大量涌入腦海,“personalized”成為了這個(gè)階段的生物信息開(kāi)發(fā)要滿(mǎn)足的關(guān)鍵需求。目前,測序技術(shù)在生物學(xué)研究中的應用已經(jīng)逐漸進(jìn)入了第三個(gè)階段,基因大數據的價(jià)值已經(jīng)在很多方面超越了自己新測序項目的產(chǎn)出,同時(shí)傳統基因科技服務(wù)公司提供的“pipeline”的分析結果已越來(lái)越難滿(mǎn)足科研工作者的需求,一方面是分析工具和個(gè)性化的分析需求得不到滿(mǎn)足;另一方面,孤立的單個(gè)項目的數據分析形式越來(lái)越不能滿(mǎn)足科研的需要。能不能利用可視化的分析工具進(jìn)行基因大數據的深入挖掘成為了能否在基因研究2.0時(shí)代成為佼佼者的關(guān)鍵因素。

    測序數據量呈指數級增長(cháng)

    Nature Reviews Genetics報道稱(chēng),目前已發(fā)表的高通量測序數據利用率不足20%,很多有價(jià)值的信息被研究者所忽略,基于公共數據挖掘和分析將成為科學(xué)研究發(fā)展的趨勢。例如,2015年?Nature Genetics發(fā)表的文章通過(guò)分析正常組織和各種常見(jiàn)類(lèi)型癌癥組織7256個(gè)轉錄組測序樣本,43T轉錄組數據中鑒定得到58000個(gè)lncRNA;發(fā)現上千種lncRNAs 在癌癥組織中特異表達,可以作為新的腫瘤標記物。2014年?Genome Biology 發(fā)表的文章通過(guò)研究13種組織和30個(gè)玉米轉錄組數據中LncRNAs的表達,鑒定出了20163個(gè)推測的LncRNAs,?并對LncRNAs的組織特異性的表達調控網(wǎng)絡(luò )進(jìn)行了解析。最有代表性的是最大的癌癥基因信息的數據庫,Cancer Genome Atlas/TCGA蘊藏著(zhù)難以想象的寶貴信息,圍繞TCGA已經(jīng)有很多重量級文章出現,PubMed收錄的利用其進(jìn)行數據挖掘發(fā)表的文章已經(jīng)超過(guò)1500篇,而且對它的使用必然愈發(fā)重要。可以說(shuō),已經(jīng)公開(kāi)的高通量測序數據如同“金礦”一般,具有極高的學(xué)術(shù)價(jià)值。然而,科研工作者一方面不方便獲取符合自己需求的數據,數據的整合、分類(lèi)、下載也會(huì )耗費較多的精力;另一個(gè)方面,缺少一個(gè)高效、易用的數據分析平臺,自主搭建一個(gè)大數據分析平臺,無(wú)論是硬件、軟件,還是人力、財力都是巨大的挑戰。這兩個(gè)因素導致大量的基因數據沉睡在哪里,不能很好的挖掘出其中的價(jià)值。

    圖1. 整合6503個(gè)來(lái)源18個(gè)器官的人類(lèi)RNA-seq公共數據集,分開(kāi)組裝->混合組裝(Meta-assembly)->merge后得到384,066個(gè)高可信度人類(lèi)轉錄本,用于后續功能分析。

    Iyer MK et al. The landscape of long noncoding RNAs in the human transcriptome. ??Nat Genet. ?2015

    圖2. 整合171個(gè)棉屬RNA-seq公共數據集,基于海島棉基因組進(jìn)行棉屬轉錄本重構,基于重構的轉錄本序列信息,從中鑒定得到35,268個(gè)lncRNA,用于后續棉纖維發(fā)育相關(guān)lncRNA鑒定。

    Wang M et al. ?Long noncoding RNAs and their proposed functions in fibre development of cotton (Gossypium spp.). ?New Phytol. 2015

    2016年3月,作為BMKCloud公共數據庫項目的一部分,涵蓋動(dòng)物、植物、微生物的高通量測序數據庫正式上線(xiàn)。百邁客云的合作伙伴現在可以在BMKCloud上免費訪(fǎng)問(wèn)該數據庫了。BMKCloud上將數10PB規模的高通量測序數據作為共享資源,用戶(hù)無(wú)需下載數據,直接在BMKCloud上利用分析平臺進(jìn)行分析,加速了利用公共數據進(jìn)行研究和探索的步伐。BMKCloud公共數據庫項目的目標是建立植物、動(dòng)物、細胞系、微生物、宏基因組、疾病高通量測序數據庫以及腫瘤高通量測序數據庫。目前,動(dòng)物、植物、微生物高通量測序數據庫正式上線(xiàn)。每個(gè)數據庫中都收集和整理了全世界公開(kāi)發(fā)表的各個(gè)物種高通量測序的原始數據及相關(guān)論文,為開(kāi)展各個(gè)領(lǐng)域的研究提供準確、全面、最新的測序原始數據和相應文獻的整合檢索平臺,并與各項可視化分析流程無(wú)縫對接。BMKCloud公共數據庫項目的數據來(lái)源是NCBI的SRA、GEO等高通量測序的公共數據,數據來(lái)源可靠,涵蓋重測序、轉錄組等各個(gè)研究領(lǐng)域(以水稻為例,目前已收錄的基因組數據集29910個(gè),轉錄組數據集2100個(gè))。

    圖3. BMKCloud公共數據庫中常見(jiàn)研究物種數據收錄

    BMKCloud公共數據庫項目建立的目的也是讓科研工作者更高效、更快速的利用公共數據,提高公共數據的利用效率。使大數據的挖掘不僅僅局限于癌癥的研究,而能夠在動(dòng)物、植物、微生物等研究中都得到很好的利用。科研工作者可以根據物種、類(lèi)型、研究性狀、研究結果、測序方法等設置快速檢索感興趣的數據,所有數據均可一鍵導入平臺中“我的數據”中保存。然后利用百邁客云提供的20大數據分析平臺和100多款工具進(jìn)行數據的可視化深度挖掘,高效、快速的挖掘基因大數據。

    圖4. 公共數據分析傳統方案 vs BMKCloud解決方案

    百邁客云(BMKCloud)是一個(gè)基于基因大數據的挖掘,管理和科研協(xié)作的整合平臺??梢允共痪邆渖镄畔⒎治龌A的用戶(hù),快速掌握獨立的生物信息分析能力,實(shí)現高通量數據的深度解讀。百邁客云提供:20大生物信息分析平臺(重測序、外顯子、轉錄組、非編碼RNA等),基本分析+個(gè)性化分析,輕松實(shí)現原始數據到生物學(xué)問(wèn)題準確解讀的轉化;100多款數據分析工具,涵蓋數據處理、文件操作、序列比對、基因注釋、進(jìn)化分析和圖表制作等,滿(mǎn)足個(gè)性化數據分析需求。百邁客生物云平臺,用戶(hù)定位是非生物信息背景的生物學(xué)家,20145月開(kāi)始開(kāi)放試用到201510月份正式商用。對于廣大的科研用戶(hù)而言,百邁客生物云是一個(gè)完整的交鑰匙(Turn-Key)解決方案,用戶(hù)只需要開(kāi)通云平臺賬號,就擁有了屬于自己的生物信息分析平臺,百邁客云已經(jīng)成為“基因科技服務(wù)2.0時(shí)代”(基因大數據可視化即時(shí)自主分析時(shí)代)科研工作者受歡迎的生物云平臺。

     

    附1公共數據整合分析經(jīng)典思路總結部分文獻

    ?

    發(fā)育調控研究中,利用公共數據完善取樣時(shí)間點(diǎn)或取樣部位

    1. YU C ?et al. Transcriptome dynamics of developing maize leaves and genomewide prediction of cis elements and their cognate transcription factors. Proc Natl Acad Sci. 2015
    2. Patil G. ?et al. Soybean (Glycine max) SWEET gene family: insights through comparative genomics, transcriptome profiling and whole genome re-sequence analysis. BMC Genomics.2015

    ?

    比較轉錄組分析中,補充其他物種、組織部位、發(fā)育時(shí)間點(diǎn)等相關(guān)數據

    1. Fu Y et al. ?Dissection of early transcriptional responses to water stress in Arundo donax L. by unigene-based RNA-seq. ?Biotechnol Biofuels. 2016
    2. Lynch VJ ?et al. Ancient transposable elements transformed the uterine regulatory landscape and transcriptome during the evolution of mammalian pregnancy. Cell Rep. 2015
    3. Analysis of Bos taurus and Sus scrofa X and Y chromosome transcriptome highlights reproductive driver genes. ??Oncotarget. 2017

    ?

    ncRNR-mRNA聯(lián)合分析中,補充mRNA或者ncRNA數據

    1. Xu W ?et al. ?Genomic DNA Methylation Analyses Reveal the Distinct Profiles in Castor Bean Seeds with Persistent Endosperms. Plant Physiol. 2016
    2. Liu X et al. ??MicroRNA-mRNA regulatory networking fine-tunes the porcine muscle fiber type, muscular mitochondrial respiratory and metabolic enzyme activities. ?BMC Genomics. 2016

    ?

    轉錄本構建項目中,整合大量公共數據,構建較為全面的物種轉錄本序列文庫

    1. Wang M et al. ?Long noncoding RNAs and their proposed functions in fibre development of cotton (Gossypium spp.). ?New Phytol. 2015
    2. Iyer MK et al. ???The landscape of long noncoding RNAs in the human transcriptome. ??Nat Genet. ?2015

     

    立即體驗



    少妇乱子伦精品无码_国产成人剧情av麻豆果冻_18禁止午夜福利体验区_99久久精品费精品国产一区二