大規(guī)模撕裂有限元算法中需要批量處理的核心算子包括不同大小稠密矩陣向量乘和胖矩陣向量乘。團(tuán)隊(duì)針對(duì)國(guó)產(chǎn)加速器上不同大小稠密矩陣向量乘算子的多流流水并行批處理操作進(jìn)行了優(yōu)化,帶來了15%~30%的吞吐量提升。優(yōu)化了胖矩陣向量乘算子的核函數(shù),平均性能提升達(dá)30%。
多粒度智能負(fù)載均衡方法分為粗粒度和細(xì)粒度兩個(gè)階段:粗粒度階段通過運(yùn)行時(shí)信息進(jìn)行大規(guī)模圖重劃分將計(jì)算負(fù)載不均衡率從1.5降低到1.15~1.20;細(xì)粒度階段通過動(dòng)態(tài)工作竊取技術(shù)將負(fù)載不均衡率進(jìn)一步降低到1.05~1.09。該負(fù)載均衡策略不僅可以進(jìn)一步應(yīng)用到全堆芯動(dòng)力學(xué)仿真,而且可以針對(duì)大規(guī)模圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練進(jìn)行性能優(yōu)化。
圖1 (a)兩級(jí)分解:一個(gè)底部中空的棒被分成兩個(gè)簇;每個(gè)簇被分成多個(gè)子域 (b)子域及其相關(guān)的連接子域
圖2 中國(guó)實(shí)驗(yàn)快堆靜力學(xué)分析結(jié)果
該成果得到國(guó)家重點(diǎn)研發(fā)計(jì)劃“數(shù)值反應(yīng)堆原型系統(tǒng)開發(fā)及示范應(yīng)用”項(xiàng)目的支持。人工智能團(tuán)隊(duì)承擔(dān)其中E級(jí)優(yōu)化關(guān)鍵技術(shù)課題。(撰稿人:王玨、周純葆)
相關(guān)成果:
Kehao Lin, Chunbao Zhou, Yan Zeng, Ningming Nie, Jue Wang*, Shigang Li, Yangde Feng, Yangang Wang, et al., A Scalable Hybrid Total
FETI Method for Massively Parallel FEM Simulations, ACM SIGPLAN Annual Symposium Principles and Practice of Parallel Programming(PPoPP) 2023