流感病毒抗原的持續(xù)變異是導(dǎo)致季節(jié)性流感反復(fù)流行和疫苗需頻繁更新的主要原因,對公共衛(wèi)生防控構(gòu)成長期挑戰(zhàn)。現(xiàn)有基于進化樹和突變模型的預(yù)測方法,難以系統(tǒng)刻畫流感病毒基因組中不同基因片段之間的協(xié)同演化規(guī)律,預(yù)測精度和泛化能力受限。融合生物學(xué)結(jié)構(gòu)先驗與生成式人工智能的建模方法成為該領(lǐng)域的重要研究方向。
近日,超級計算中心運行與應(yīng)用服務(wù)室聯(lián)合中國科學(xué)院北京基因組研究所(國家生物信息中心)提出了結(jié)構(gòu)感知的DNA語言模型AntigenLM。該模型基于自回歸Transformer架構(gòu),在預(yù)訓(xùn)練階段直接建模完整流感病毒基因組,顯式保留八個基因片段的功能結(jié)構(gòu)與序列順序信息,以學(xué)習(xí)跨基因片段的高階協(xié)同進化約束;在微調(diào)階段引入sentinel 標(biāo)記,引導(dǎo)模型聚焦抗原相關(guān)功能區(qū)域。實驗結(jié)果表明,AntigenLM在HA和NA抗原序列預(yù)測中的氨基酸錯配數(shù)較現(xiàn)有模型減少約 50%–70%,在關(guān)鍵表位區(qū)域幾乎無錯配,并在跨地區(qū)傳播及小樣本亞型(如H7N9)場景下保持穩(wěn)定性能;在流感A多亞型分類任務(wù)中取得99.81%的F1分?jǐn)?shù)。該研究驗證了生物學(xué)結(jié)構(gòu)先驗作為歸納偏置融入基礎(chǔ)模型設(shè)計的有效性。

該研究成果已被第14屆International Conference on Learning Representations國際學(xué)習(xí)表征會議(ICLR 2026)錄用。ICLR是機器學(xué)習(xí)與深度學(xué)習(xí)領(lǐng)域國際頂級會議。我中心博士研究生裴月為論文第一作者,遲學(xué)斌研究員為共同通訊作者。該研究成果得到國家重點研發(fā)計劃項目支持。
相關(guān)成果:
Yue Pei, Xuebin Chi, Yu Kang. AntigenLM: Structure-Aware DNA Language Modeling for Influenza. In The Fourteenth International Conference on Learning Representations (ICLR 2026).
責(zé)任編輯:郎楊琴