<li id="qqq0q"><tt id="qqq0q"></tt></li>
  • <li id="qqq0q"><tt id="qqq0q"></tt></li>
  • 數據淘金——公共數據再利用

    高通量測序技術(shù)的出現,使全世界產(chǎn)出的測序數據出現了爆炸式增長(cháng),這些數據存放在或大或小的數據庫中,區域性的大數據庫包括NCBI、ENA/EBI、DDBJ等,今天我們重點(diǎn)給大家介紹下NCBI的SRA數據庫。

     

    Part 1?|?SRA數據庫介紹

    SRA(Sequence Read Archive)是NCBI中專(zhuān)門(mén)用于存放原始高通量測序數據的一個(gè)子庫,收錄了各種二代、三代測序儀產(chǎn)生的數據,與ENA/EBI、DDBJ間共享原始測序數據。

    INSDC(International Nucleotide Sequence Database Collaboration)成員間共享測序數據

    有過(guò)數據上傳經(jīng)歷的童鞋應該對SRA并不陌生,上傳數據前我們一般要創(chuàng )建BioProject、BioSample,用于詳細說(shuō)明項目信息、樣品信息;并通過(guò)SRA的Experiment、RUN描述建庫測序相關(guān)信息,如建庫類(lèi)型、測序儀器、單雙端等;下圖概括出了幾者之間的關(guān)系。

    https://www.ncbi.nlm.nih.gov/sra/docs/submitmeta/

    SRA上傳和檢索數據時(shí),我們會(huì )遇到各種各樣的編號,這些編號間的對應關(guān)系通過(guò)下表我們可以理清。項目和樣品信息首先會(huì )存放在BioProject和BioSample數據庫中,得到類(lèi)似PRJNA和SAMN的編號;在SRA數據庫中也會(huì )對項目和樣品進(jìn)行編號,分別以SRP和SRS作為前綴,并與BioProject和BioSample中對應;其余SR開(kāi)頭的編號都屬于SRA數據庫。

    SRA數據庫中各種編號對應表

    SRA數據庫中存儲的是高度壓縮后的sra格式數據,截止到目前,SRA中已經(jīng)累計存儲了超過(guò)20P堿基數據,而且每年仍在以極快的速度增長(cháng)。

    SRA數據量增長(cháng)圖(縱坐標代表sra格式文件大小,單位TB;橫坐標代表年;藍線(xiàn)代表總數據量)

    Part 2?|?SRA數據庫中疾病相關(guān)數據統計

    在SRA數據庫的愿景中,除了進(jìn)行原始測序數據的保存之外,還有一個(gè)目的就是希望這些數據可以被再次利用,得出新的發(fā)現。但是目前這些數據就像宇宙中無(wú)法被探測的暗物質(zhì),無(wú)人問(wèn)津。

    https://www.ncbi.nlm.nih.gov/sra/docs/

    既然已經(jīng)有如此多的公共數據,我們應該充分挖掘,不僅可以產(chǎn)出新發(fā)現,也可以有效降低科研成本。俗話(huà)說(shuō)的好,知己知彼,百戰不殆。要想充分利用這些公共數據,我們首先需要對這些數據有更加深刻的認識,于是我們針對熱點(diǎn)研究疾病,統計了不同測序類(lèi)型的數據量,以及項目數和樣品數,想了解其他疾病數據量情況的童鞋可以文末留言,我們統計好之后發(fā)送給您。

    熱點(diǎn)研究疾病數據統計(單位:Gbase)

    熱點(diǎn)癌癥數據統計(單位:Gbase)

    Part 3 |?公共數據使用策略

    如此多的數據,該怎樣去利用,我們整理了一些思路,供大家參考。

    策略一:數據整合,增大樣本量

    以研究疾病相關(guān)基因表達為例,可以整合多個(gè)項目中的RNA-Seq數據(也可以結合自己的數據,增大樣本量),計算基因表達量,并篩選疾病組織和正常組織間差異表達的基因;

    再針對差異表達基因進(jìn)行共表達分析,獲得共表達基因集;然后進(jìn)一步對這些基因的功能、所屬通路進(jìn)行分析,從而更完整的描述出疾病發(fā)生的機理。

    策略二:多種疾病間橫向比較

    以研究肺癌患者中S100A4基因的差異表達為例,通過(guò)下載其他類(lèi)型癌癥如:胸腺癌、惡性間皮瘤的RNA-Seq數據,并分析該基因在這兩種癌癥中的差異表達情況,如果與肺癌中有相同的差異表達趨勢,則可以增強我們結論的說(shuō)服力。

    策略三:不同水平間橫向比較

    分析不同水平的數據,如:細胞水平、組織水平、動(dòng)物模型上目標基因的差異表達情況,增強分析結論的說(shuō)服力。

    策略四:不同類(lèi)型數據間聯(lián)合分析

    我們只自測了mRNA數據,但是想了解miRNA對于mRNA的調控,那我們可以下載對應疾病的miRNA類(lèi)型的數據,通過(guò)兩者的聯(lián)合分析,更深入的了解疾病發(fā)生的機理。

    Part 4 |?結語(yǔ)

    公共數據使用看似很困難,需要下載、轉換格式、生信分析,目前百邁客云(www.holisticcircumcision.com)已經(jīng)集成了SRA數據檢索、下載、轉換和分析,我們錄制了一個(gè)短視頻,展示了如何通過(guò)簡(jiǎn)單的鼠標點(diǎn)擊高效完成以上所有工作,詳情:http://live.biocloud.net/open/course/10

     

    參考文獻:

    [1]????Chun-Ping Yu et al.?Transcriptome dynamics of developing maize leaves andgenomewide prediction of cis elements and their cognate transcription factors.Proc Natl Acad Sci . 2015

    [2]????Iyer MK et al. The landscape oflong noncoding RNAs in the human transcriptome. Nat Genet. 2015

    [3]????Patil G. et al. Soybean(Glycine max) SWEET gene family: insights through comparative genomics,transcriptome profiling and whole genome re-sequence analysis. BMC Genomics.2015

    [4]????Matthijs M. et al. Profiling ofthe Early Nitrogen Stress Response in the Diatom Phaeodactylum tricornutumReveals a Novel Family of RING-Domain Transcription Factors. Plant Physiol.2016

    ?

    免費贈送云平臺使用權限

    點(diǎn)擊下方按鈕,參與調查問(wèn)卷,獎品可以任選其一:

    獎品一:免費使用百邁客云專(zhuān)業(yè)版套餐中真核有參轉錄組分析平臺(單次可分析300Gbase)或小RNA分析平臺(單次可分析400Mreads)或外顯子分析平臺(單次可分析300Gbase)完成一次SRA數據分析。

    獎品二:開(kāi)通百邁客云所有工具(100+款)1個(gè)月免費使用權限。

     



    少妇乱子伦精品无码_国产成人剧情av麻豆果冻_18禁止午夜福利体验区_99久久精品费精品国产一区二