隨著科學(xué)文獻(xiàn)的激增,尤其是在計(jì)算機(jī)科學(xué)等快速發(fā)展的領(lǐng)域,給信息檢索和管理帶來了巨大挑戰(zhàn),使得人們?cè)絹碓诫y以掌握最新的研究進(jìn)展。
傳統(tǒng)的信息檢索方法依賴于人工整理或基本關(guān)鍵詞搜索,往往無法捕捉不同研究領(lǐng)域之間微妙的聯(lián)系,忽略了新興的跨學(xué)科關(guān)聯(lián)。我中心大數(shù)據(jù)部研發(fā)了SciTopic模型,先用文本編碼器綜合利用論文的元數(shù)據(jù)、標(biāo)題和摘要表征文獻(xiàn)內(nèi)容,再設(shè)計(jì)熵導(dǎo)向采樣和由 LLM 指導(dǎo)的三元組空間優(yōu)化模塊,通過對(duì)比學(xué)習(xí)細(xì)化表示空間、強(qiáng)化主題相關(guān)性辨別能力,從而比現(xiàn)有方法更好地識(shí)別科學(xué)主題,幫助研究者更快、更深入地獲取科研主題和前沿洞察。

SciTopic 模型框架圖

獲獎(jiǎng)證書
該成果被國際權(quán)威大數(shù)據(jù)學(xué)術(shù)會(huì)議The 2025 IEEE International Conference on Big Data (IEEE BigData 2025) 接收并被評(píng)為最佳論文(Best Paper)。該成果得到國家自然科學(xué)基金和國家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目資助。論文第一作者為我中心博士研究生李鵬江,指導(dǎo)教師為我中心周園春、王鵬飛研究員,博士研究生王在田為共同一作。
相關(guān)成果:
Pengjiang Li,Zaitian Wang,Xinhao Zhang,Ran Zhang,Lu Jiang,Pengfei Wang,Yuanchun Zhou. SciTopic: Enhancing Topic Discovery in Scientific Literature Through Advanced LLM. IEEE BigData 2025.
責(zé)任編輯:郎楊琴