為科研項(xiàng)目尋找到合理的領(lǐng)域方向,從而協(xié)助科學(xué)家與科研管理者進(jìn)行研究方向管理是面臨的典型問題。針對該問題,大數(shù)據(jù)部博士生肖濛的研究成果在國際電子電氣工程師學(xué)會(IEEE)旗下會議International Conference on Data Mining 2021上發(fā)表,該會議長文接收率為9.9%。研究成果相關(guān)論文第一作者為大數(shù)據(jù)部博士生肖濛,導(dǎo)師為周園春研究員。
隨著科研項(xiàng)目申請迅速增長,學(xué)科劃分不斷細(xì)化,申請者及科研管理人員如何在具有層次結(jié)構(gòu)的學(xué)科體系中選擇項(xiàng)目申請所屬的細(xì)分學(xué)科領(lǐng)域,是需要解決的重要問題。申請書數(shù)據(jù)是由標(biāo)題、摘要、關(guān)鍵詞、額外屬性、正文等不同類別數(shù)據(jù)組成的復(fù)雜結(jié)構(gòu)文本。并且,在申請書的分類過程中,專家知識可以在較為容易判斷的大類學(xué)科中提供對模型的指導(dǎo),并利用模型生成最為合適粒度的層級標(biāo)簽。
該研究成果提出了一個Encoder-Decoder架構(gòu)的層次多標(biāo)簽分類算法(Hierarchical Multi-label Classification)。編碼器部分,通過利用多層次的Transformer組件實(shí)現(xiàn)對申請書中文本文檔內(nèi)的字詞、文本文檔間的互動關(guān)系進(jìn)行建模,從而完成多類別文本的語義抽取。解碼器部分,利用自注意力機(jī)制抽取專家知識以及已生成標(biāo)簽的特征,并結(jié)合編碼器所抽取的語義信息,依照學(xué)科體系結(jié)構(gòu)逐層生成標(biāo)簽序列。這一研究成果為科研項(xiàng)目分類場景提供了結(jié)合人工智能的解決方案,有著豐富的應(yīng)用場景。(撰稿:肖濛)
相關(guān)成果:Meng Xiao, Ziyue Qiao, Yanjie Fu, Yi Du*, Pengyang Wang, and Yuanchun Zhou. "Expert Knowledge-Guided Length-Variant Hierarchical Label Generation for Proposal Classification." 2021 IEEE International Conference on Data Mining (ICDM). IEEE, 2021.

圖1.專家知識指導(dǎo)的層次多標(biāo)簽生成任務(wù)

圖2. 專家知識指導(dǎo)的科研項(xiàng)目申請書變長層次多標(biāo)簽生成模型圖