大數(shù)據(jù)部支持微生物領(lǐng)域數(shù)據(jù)庫(kù)及其分析系統(tǒng)建設(shè)取得新進(jìn)展
大數(shù)據(jù)技術(shù)與應(yīng)用發(fā)展部與中國(guó)科學(xué)院微生物研究所等團(tuán)隊(duì)在微生物領(lǐng)域數(shù)據(jù)庫(kù)及其分析系統(tǒng)建設(shè)取得新進(jìn)展,相繼聯(lián)合發(fā)表兩篇相關(guān)研究成果在國(guó)際知名學(xué)術(shù)期刊《核酸研究(Nucleic Acids Research)》。
模式菌株(type strains)是在給微生物定名、分類記載和發(fā)表時(shí),以純菌狀態(tài)所保存的菌種,是微生物分類學(xué)的標(biāo)準(zhǔn)參考物質(zhì),也是理想的生物技術(shù)研究工具,具有重要的科研和產(chǎn)業(yè)價(jià)值。模式菌株長(zhǎng)期以來分散在全球各國(guó)超過100余個(gè)保藏中心,是各個(gè)保藏中心甚為珍貴的資源。2018年,中科院微生物所牽頭組織發(fā)起了全球模式微生物基因組測(cè)序計(jì)劃,從全球微生物資源保藏中心選擇目前未進(jìn)行測(cè)序的模式微生物菌株(包括細(xì)菌、古菌和可培養(yǎng)真菌),預(yù)計(jì)5年內(nèi)完成超過10,000種的細(xì)菌、真菌、古菌模式菌株基因組測(cè)序,建立全球微生物模式菌株基因組測(cè)序合作網(wǎng)絡(luò),現(xiàn)已有來自美國(guó)的ATCC、日本JCM和NBRC、韓國(guó)的KCTC等超過12個(gè)國(guó)家的26個(gè)微生物資源保藏中心正式加入該計(jì)劃并形成了重要了階段性成果。

全球模式微生物基因組數(shù)據(jù)庫(kù)分析流程(gcType)
大數(shù)據(jù)部與中科院微生物研究所馬俊才研究員團(tuán)隊(duì)合作構(gòu)建了全球模式微生物基因組數(shù)據(jù)庫(kù)(Global Catalogue of Type Strain, gcType),整合了16701個(gè)有效發(fā)表的原核生物的超過13944個(gè)基因組數(shù)據(jù),是目前在模式微生物基因組方面數(shù)據(jù)最為全面,功能最為完善的數(shù)據(jù)平臺(tái),為用戶提供一站式的數(shù)據(jù)管理和基因組注釋、新種鑒定等分析,合作成果發(fā)表在國(guó)際知名學(xué)術(shù)期刊核酸研究Nucleic Acids Research。
隨著全球新冠疫控的持續(xù),新型冠狀病毒基因組在流行過程中持續(xù)發(fā)生變異。迄今,在全球科學(xué)技術(shù)人員的共同努力下,已經(jīng)對(duì)超過400萬例病毒基因組進(jìn)行了測(cè)序,并構(gòu)建了多個(gè)病毒基因組數(shù)據(jù)庫(kù)。這些數(shù)據(jù)庫(kù)在收集、展示數(shù)據(jù)的基礎(chǔ)上,包含了病毒分型、溯源分析等功能,為全球疫情的監(jiān)測(cè)追蹤提供了重要的信息。然而,隨著對(duì)變異研究的深入,對(duì)變異造成的功能影響日漸成為關(guān)注的焦點(diǎn)。目前,在全球多個(gè)國(guó)家和地區(qū)均發(fā)現(xiàn)了包括Alpha、Beta和Delta在內(nèi)的多種感染力增強(qiáng)的變異毒株,尤其是關(guān)鍵位點(diǎn)積累的氨基酸變異,極大地改變了病毒的免疫學(xué)特征,增加了病毒免疫逃逸的風(fēng)險(xiǎn),可能會(huì)降低現(xiàn)有疫苗、抗體、藥物等疫情控制方法的保護(hù)性,影響核酸診斷試劑的適用性,對(duì)疫情的防控構(gòu)成了嚴(yán)峻挑戰(zhàn)。因此,現(xiàn)有的以收集、展示數(shù)據(jù)為主的基本數(shù)據(jù)庫(kù)已經(jīng)難以滿足未來疫情防控的需求,亟需一個(gè)基于大數(shù)據(jù)的病毒變異風(fēng)險(xiǎn)評(píng)估及預(yù)警系統(tǒng),對(duì)現(xiàn)有及未來可能出現(xiàn)的各種變異造成的影響進(jìn)行系統(tǒng)性評(píng)估和解讀,從而實(shí)施更加精準(zhǔn)有效的疫情防控策略。

新型冠狀病毒變異評(píng)估和預(yù)警系統(tǒng)入口(VarEPS)
大數(shù)據(jù)部與中科院微生物研究所馬俊才研究員等團(tuán)隊(duì)合作發(fā)布了“新型冠狀病毒變異評(píng)估和預(yù)警系統(tǒng)”(SARS-CoV-2Variations Evaluation and Prewaning System),簡(jiǎn)稱VarEPS數(shù)據(jù)庫(kù)。VarEPS是全球首個(gè)對(duì)SARS-CoV-2基因組已知變異及虛擬變異進(jìn)行多維度風(fēng)險(xiǎn)評(píng)估和預(yù)警的系統(tǒng)。VarEPS從基因組學(xué)和結(jié)構(gòu)生物學(xué)角度入手,在基于變異位點(diǎn)頻率評(píng)估的基礎(chǔ)上,從核苷酸變異發(fā)生難易程度、氨基酸替換難度、變異對(duì)蛋白質(zhì)二級(jí)結(jié)構(gòu)的影響、單個(gè)氨基酸突變引起的ACE2及中和抗體結(jié)合自由能變化等參數(shù)對(duì)變異進(jìn)行多維度的評(píng)估,全面對(duì)已知變異和潛在的虛擬變異對(duì)病毒的功能造成的影響進(jìn)行綜合分析。在此基礎(chǔ)上,該系統(tǒng)采用人工智能分類器算法,將變異株從傳播性和對(duì)中和抗體親和力兩方面進(jìn)行有效分組,實(shí)現(xiàn)了基于病毒序列的風(fēng)險(xiǎn)評(píng)估和預(yù)警。合作成果發(fā)表在國(guó)際知名學(xué)術(shù)期刊核酸研究Nucleic Acids Research。(撰稿:孟珍)
相關(guān)成果:
1. gcType: a high-quality type strain genome database for microbial phylogenetic and functional research. Nucleic Acids Research, Volume 49, Issue D1, 8 January 2021, Pages D694–D705.
2. VarEPS: an evaluation and prewarning system of known and virtual variations of SARS-CoV-2 genomes. Nucleic Acids Research, 11 October 2021, gkab921.