大數(shù)據(jù)部在面向?qū)W術(shù)服務(wù)的預(yù)訓(xùn)練模型研究中取得進(jìn)展

2022-02-15 10:59 | 【放大縮小】 |

　　在科研人員異質(zhì)數(shù)據(jù)上可遷移預(yù)訓(xùn)練模型的研究中，大數(shù)據(jù)部提出了一種基于多任務(wù)自監(jiān)督學(xué)習(xí)的科研人員數(shù)據(jù)預(yù)訓(xùn)練模型RPT，該模型能有效地遷移到多個科研人員數(shù)據(jù)挖掘和分析任務(wù)，以提高學(xué)術(shù)服務(wù)的質(zhì)量和智能。研究成果發(fā)表在國際期刊IEEE Transactions on Big Data上。研究成果相關(guān)論文第一作者為大數(shù)據(jù)部博士生喬子越，導(dǎo)師為周園春研究員。

　　隨著學(xué)術(shù)搜索引擎的發(fā)展，海量研究者數(shù)據(jù)的挖掘和分析需求，如科研人員關(guān)系抽取和專家發(fā)現(xiàn)，已變得尤為重要。它可以提高服務(wù)質(zhì)量和學(xué)術(shù)引擎的智能。現(xiàn)有的研究大多集中于針對特定應(yīng)用場景的單個任務(wù)，并學(xué)習(xí)特定于任務(wù)的模型，通常無法遷移到其它任務(wù)。預(yù)訓(xùn)練技術(shù)提供了一個高效的共享模型思路，可以從大量未標(biāo)記的數(shù)據(jù)中獲取有價值的信息，并遷移到多種下游挖掘分析任務(wù)中。

　　基于此，該研究從模型在異質(zhì)數(shù)據(jù)上的泛化能力，可遷移性和可擴(kuò)展性出發(fā)，提出了一種基于多任務(wù)自監(jiān)督學(xué)習(xí)的科研人員數(shù)據(jù)預(yù)訓(xùn)練模型RPT。具體來說，將科研人員的數(shù)據(jù)分為語義文檔集和社區(qū)網(wǎng)絡(luò)。并設(shè)計了層次Transformer的語義編碼器和基于GNN的局部社區(qū)編碼器，分別從這兩類數(shù)據(jù)中捕獲信息。然后，RPT通過三個自監(jiān)督學(xué)習(xí)目標(biāo)來訓(xùn)練整個模型，包含了一個基于對比學(xué)習(xí)的融合兩種信息的主任務(wù)，和兩個輔助任務(wù)，即分別用于提取語義和社區(qū)信息的分層掩蔽語言模型和社區(qū)關(guān)系預(yù)測模型，以提升細(xì)粒度上的預(yù)訓(xùn)練水平。RPT有兩種遷移模式，用于在不同場景下進(jìn)行微調(diào)。該研究進(jìn)行了大量實驗來評估RPT，多個下游任務(wù)的結(jié)果驗證了科研人員數(shù)據(jù)預(yù)訓(xùn)練的有效性。（撰稿：喬子越）

　　相關(guān)成果：Ziyue Qiao, Yanjie Fu, Pengyang Wang, Meng Xiao, Zhiyuan Ning, Yi Du, Yuanchun Zhou. RPT: Toward Transferable Model on Heterogeneous Researcher Data via Pre-Training. IEEE Transactions on Big Data. 2022

圖1 針對科研人員異質(zhì)數(shù)據(jù)的預(yù)訓(xùn)練和微調(diào)框架

圖2 論文提出的科研人員數(shù)據(jù)的預(yù)訓(xùn)練模型圖

附件下載

上一篇:高性能計算部在雙精度矩陣乘法優(yōu)化研究中取得進(jìn)展下一篇:大數(shù)據(jù)部在圖像數(shù)據(jù)處理研究中取得進(jìn)展