針對(duì)對(duì)稱特征值問(wèn)題高效求解,我中心科研人員研發(fā)了并行算法庫(kù)軟件包HPSPES(High Performance Symmetric Eigenproblem Software)。近期,完成了HPSPES軟件包中稠密特征值問(wèn)題求解的全部關(guān)鍵算法模塊在GPU平臺(tái)的整體移植與深度優(yōu)化。在廣義轉(zhuǎn)標(biāo)準(zhǔn)算法中,采用了將Cholesky 分解和廣義轉(zhuǎn)標(biāo)準(zhǔn)混合求解的并行算法,既降低了通信開(kāi)銷,又實(shí)現(xiàn)了CPU和GPU的協(xié)同工作。三對(duì)角化過(guò)程通過(guò)行條塊和列條塊同時(shí)更新,保證整個(gè)矩陣的完整性,避免了二維通信域下上/下三角矩陣-向量乘帶來(lái)的較大通信開(kāi)銷。另外,引入行-列通信域間轉(zhuǎn)置通信采用塊-塊間完全并行的點(diǎn)-點(diǎn)通信。軟件包的單GPU卡性能與256CPU核心性能相當(dāng),在“東方”超算計(jì)算系統(tǒng)上可擴(kuò)展到全機(jī)。

圖1 HPSPES算法庫(kù)軟件包架構(gòu)圖

圖2 GPU版本軟件包與CPU版本軟件包性能比較示意圖

圖3 2,000,000階矩陣測(cè)試結(jié)果示意圖
相關(guān)研究成果已發(fā)表在CCF A類期刊《軟件學(xué)報(bào)》[1]和《計(jì)算機(jī)研究與發(fā)展》[2]中。論文第一作者為中心高性能計(jì)算部的博士研究生劉世芳,導(dǎo)師為趙永華研究員。該研究提出的優(yōu)化方法已獲得授權(quán)發(fā)明專利[3]。研究工作得到了國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目、院戰(zhàn)略性先導(dǎo)科技專項(xiàng)的支持。(撰稿:劉世芳)
相關(guān)成果:
[1] 劉世芳, 趙永華, 于天禹, 黃榮鋒. 并行對(duì)稱矩陣三對(duì)角化算法在GPU集群上的有效實(shí)現(xiàn)[J]. 計(jì)算機(jī)研究與發(fā)展. 2020,57(12):2635-2647.
[2] 劉世芳, 趙永華, 黃榮鋒,于天禹,張馨尹. 基于批量LU 分解的矩陣求逆算法在GPU上的有效實(shí)現(xiàn)[J]. 軟件學(xué)報(bào). 2022. 已錄用.
趙永華,劉世芳,黃榮鋒. 一種圖形處理器上基于延遲修正的批量矩陣求逆方法.(202110247100.4).