我中心在流感基因組語言模型研究中取得新進展

2026-02-09 20:11 | 【放大縮小】 |

流感病毒抗原的持續(xù)變異是導(dǎo)致季節(jié)性流感反復(fù)流行和疫苗需頻繁更新的主要原因，對公共衛(wèi)生防控構(gòu)成長期挑戰(zhàn)。現(xiàn)有基于進化樹和突變模型的預(yù)測方法，難以系統(tǒng)刻畫流感病毒基因組中不同基因片段之間的協(xié)同演化規(guī)律，預(yù)測精度和泛化能力受限。融合生物學(xué)結(jié)構(gòu)先驗與生成式人工智能的建模方法成為該領(lǐng)域的重要研究方向。

近日，超級計算中心運行與應(yīng)用服務(wù)室聯(lián)合中國科學(xué)院北京基因組研究所（國家生物信息中心）提出了結(jié)構(gòu)感知的DNA語言模型AntigenLM。該模型基于自回歸Transformer架構(gòu)，在預(yù)訓(xùn)練階段直接建模完整流感病毒基因組，顯式保留八個基因片段的功能結(jié)構(gòu)與序列順序信息，以學(xué)習(xí)跨基因片段的高階協(xié)同進化約束；在微調(diào)階段引入sentinel 標(biāo)記，引導(dǎo)模型聚焦抗原相關(guān)功能區(qū)域。實驗結(jié)果表明，AntigenLM在HA和NA抗原序列預(yù)測中的氨基酸錯配數(shù)較現(xiàn)有模型減少約 50%–70%，在關(guān)鍵表位區(qū)域幾乎無錯配，并在跨地區(qū)傳播及小樣本亞型（如H7N9）場景下保持穩(wěn)定性能；在流感A多亞型分類任務(wù)中取得99.81%的F1分?jǐn)?shù)。該研究驗證了生物學(xué)結(jié)構(gòu)先驗作為歸納偏置融入基礎(chǔ)模型設(shè)計的有效性。

該研究成果已被第14屆International Conference on Learning Representations國際學(xué)習(xí)表征會議（ICLR 2026）錄用。ICLR是機器學(xué)習(xí)與深度學(xué)習(xí)領(lǐng)域國際頂級會議。我中心博士研究生裴月為論文第一作者，遲學(xué)斌研究員為共同通訊作者。該研究成果得到國家重點研發(fā)計劃項目支持。

相關(guān)成果：

Yue Pei, Xuebin Chi, Yu Kang. AntigenLM: Structure-Aware DNA Language Modeling for Influenza. In The Fourteenth International Conference on Learning Representations (ICLR 2026).

責(zé)任編輯：郎楊琴

附件下載

上一篇:我中心在高性能計算性能可移植編程模型研究領(lǐng)域取得重要突破下一篇:國家基礎(chǔ)學(xué)科公共科學(xué)數(shù)據(jù)中心召開2025年度評價考核會議