中心聯(lián)合構(gòu)建數(shù)據(jù)集入選國家數(shù)據(jù)局“高質(zhì)量數(shù)據(jù)集典型案例”
近日,國家數(shù)據(jù)局組織開展高質(zhì)量數(shù)據(jù)集典型案例征集工作。由中國科學(xué)院計算機網(wǎng)絡(luò)信息中心、中國科學(xué)院動物研究所聯(lián)合構(gòu)建的“scCompass:億級多物種單細胞轉(zhuǎn)錄組AI數(shù)據(jù)集”成功入選國家數(shù)據(jù)局“高質(zhì)量數(shù)據(jù)集典型案例”。

典型案例發(fā)布現(xiàn)場

scCompass:億級多物種單細胞轉(zhuǎn)錄組AI數(shù)據(jù)集” 成功入選國家數(shù)據(jù)局“高質(zhì)量數(shù)據(jù)集典型案例”
scCompass針對傳統(tǒng)生命科學(xué)數(shù)據(jù)庫存在聚焦單一物種,標(biāo)準(zhǔn)不統(tǒng)一的問題,難以支持大模型的跨物種泛化訓(xùn)練的瓶頸,建設(shè)億級多物種單細胞轉(zhuǎn)錄組AI數(shù)據(jù)集。scCompass嚴選自全球主流數(shù)據(jù)庫,經(jīng)統(tǒng)一質(zhì)控、歸一化與高精度細胞類型注釋,最終集成來自人類、小鼠等13個關(guān)鍵物種超1.04億個單細胞,為跨物種生命規(guī)律解析與大模型訓(xùn)練提供核心數(shù)據(jù)基座。scCompass自2025年5月公開發(fā)表以來,已服務(wù)36個國家/地區(qū),并支撐首個知識與數(shù)據(jù)聯(lián)合驅(qū)動的多物種生命基礎(chǔ)大模型GeneCompass(Cell Research,2024,封面文章)以及細胞圖基礎(chǔ)模型CGCompass(National Science Review,2025),并支撐XCompass生命科學(xué)智能數(shù)字細胞基礎(chǔ)大模型賦能細胞治療,未來將持續(xù)動態(tài)更新該數(shù)據(jù)集。
相關(guān)地址和公開文章:
scCompass數(shù)據(jù)集服務(wù)平臺:http://bdbe.cn/kun
scCompass數(shù)據(jù)集文章:https://advanced.onlinelibrary.wiley.com/doi/10.1002/advs.202500870
GeneCompass(scCompass126M支撐):https://www.nature.com/articles/s41422-024-01034-y
CGCompass:(scCompass50M支撐) ::https://academic.oup.com/nsr/advance-article/doi/10.1093/nsr/nwaf255/8172492
責(zé)任編輯:郎楊琴