在科研人員異質(zhì)數(shù)據(jù)上可遷移預(yù)訓(xùn)練模型的研究中,大數(shù)據(jù)部提出了一種基于多任務(wù)自監(jiān)督學(xué)習(xí)的科研人員數(shù)據(jù)預(yù)訓(xùn)練模型RPT,該模型能有效地遷移到多個科研人員數(shù)據(jù)挖掘和分析任務(wù),以提高學(xué)術(shù)服務(wù)的質(zhì)量和智能。研究成果發(fā)表在國際期刊IEEE Transactions on Big Data上。研究成果相關(guān)論文第一作者為大數(shù)據(jù)部博士生喬子越,導(dǎo)師為周園春研究員。
隨著學(xué)術(shù)搜索引擎的發(fā)展,海量研究者數(shù)據(jù)的挖掘和分析需求,如科研人員關(guān)系抽取和專家發(fā)現(xiàn),已變得尤為重要。它可以提高服務(wù)質(zhì)量和學(xué)術(shù)引擎的智能。現(xiàn)有的研究大多集中于針對特定應(yīng)用場景的單個任務(wù),并學(xué)習(xí)特定于任務(wù)的模型,通常無法遷移到其它任務(wù)。預(yù)訓(xùn)練技術(shù)提供了一個高效的共享模型思路,可以從大量未標(biāo)記的數(shù)據(jù)中獲取有價值的信息,并遷移到多種下游挖掘分析任務(wù)中。
基于此,該研究從模型在異質(zhì)數(shù)據(jù)上的泛化能力,可遷移性和可擴(kuò)展性出發(fā),提出了一種基于多任務(wù)自監(jiān)督學(xué)習(xí)的科研人員數(shù)據(jù)預(yù)訓(xùn)練模型RPT。具體來說,將科研人員的數(shù)據(jù)分為語義文檔集和社區(qū)網(wǎng)絡(luò)。并設(shè)計了層次Transformer的語義編碼器和基于GNN的局部社區(qū)編碼器,分別從這兩類數(shù)據(jù)中捕獲信息。然后,RPT通過三個自監(jiān)督學(xué)習(xí)目標(biāo)來訓(xùn)練整個模型,包含了一個基于對比學(xué)習(xí)的融合兩種信息的主任務(wù),和兩個輔助任務(wù),即分別用于提取語義和社區(qū)信息的分層掩蔽語言模型和社區(qū)關(guān)系預(yù)測模型,以提升細(xì)粒度上的預(yù)訓(xùn)練水平。RPT有兩種遷移模式,用于在不同場景下進(jìn)行微調(diào)。該研究進(jìn)行了大量實驗來評估RPT,多個下游任務(wù)的結(jié)果驗證了科研人員數(shù)據(jù)預(yù)訓(xùn)練的有效性。(撰稿:喬子越)
相關(guān)成果:Ziyue Qiao, Yanjie Fu, Pengyang Wang, Meng Xiao, Zhiyuan Ning, Yi Du, Yuanchun Zhou. RPT: Toward Transferable Model on Heterogeneous Researcher Data via Pre-Training. IEEE Transactions on Big Data. 2022

圖1 針對科研人員異質(zhì)數(shù)據(jù)的預(yù)訓(xùn)練和微調(diào)框架

圖2 論文提出的科研人員數(shù)據(jù)的預(yù)訓(xùn)練模型圖