大數據技術與應用發(fā)展部與中國科學院微生物研究所等團隊在微生物領域數據庫及其分析系統(tǒng)建設取得了新進展,提出了一種利用語義網技術構建知識圖譜的方法,可把冠狀病毒相關的毒株、基因組、蛋白序列、蛋白結構、抗體、文獻和專利等多源異構數據映射至資源描述框架(RDF),并構建了基于語義網框架的冠狀病毒知識圖譜數據庫gcCov。gcCov包含六千多萬條語義三元組,通過多源異構數據的語義整合,支持大規(guī)模數據驅動的知識發(fā)現,具備對基因、結構、抗體等數據進行相關性分析的能力,有助于推動未來對基本病毒機制以及藥物和疫苗設計的研究。研究成果已發(fā)表在微生物學領域綜合性期刊《mLife》上。
近幾十年來,冠狀病毒持續(xù)威脅著全球公共衛(wèi)生安全。因此,有關新型冠狀病毒的研究十分廣泛,相關出版物的數量也增長迅速。海量的科研數據使得將不同類型的研究整合到一個可搜索的語義互聯(lián)的數據集,變成了一個巨大的挑戰(zhàn)。目前,可用的冠狀病毒數據庫主要集中在基因組分析領域(例如CovDB1和ViPR2)或出版物領域(如LitCovid3)。而這些數據庫并沒有建立基因組數據和其他類型信息(例如論文、專利和抗體)之間的相關性,阻礙了進一步的知識發(fā)現。
語義網能夠將分布式網絡資源集成到共享本體的知識庫中,研究對象之間的潛在關系,是生物醫(yī)學數據集成的一個有效解決方案。為了分析海量數據之間的相互關系,這項研究設計了一套流水線方法,將不同來源的數據整合到語義網框架中。基于此方法,該研究構建了gcCov數據庫,使用關聯(lián)開放數據(Link Open Data)提供有關冠狀病毒的廣泛信息和關聯(lián)關系。gcCov是第一個也是唯一使用關聯(lián)開放數據并基于語義網框架發(fā)布的冠狀病毒數據庫。它有助于科學家檢測鏈接數據之間的聯(lián)系,從而發(fā)現隱藏在海量數據中的新知識。gcCov為當前的預防和治療策略提供了線索,是滿足冠狀病毒研究日益增長的信息需求的重要工具。(撰稿:胡川)
相關成果:
Shi W, Fan G, Shen Z, Hu C, Ma J, Zhou Y, Meng Z, et al. gcCov: Linked open data for global coronavirus studies. mLife. 2022;1–4.

數據處理流水線示意圖