工作動態(tài)
針對天文N體在GPU異構并行模擬中的問題,我中心科研人員設計了一種性能優(yōu)化方法,該方法在GPU上構造了短程力作用列表和線程塊流水調(diào)度,將粒子信息輪流加載到GPU共享內(nèi)存中,采用插值多項式和混合精度優(yōu)化了核心函數(shù),實現(xiàn)了GPU上重排序并規(guī)約合并目標粒子信息,提升了天文N體異構并行模擬在國產(chǎn)加速卡上的計算性能。優(yōu)化后的程序在加速卡上的運行速度與同數(shù)量CPU核相比,短程力模塊加速比可以達到1000倍以上。

圖1 GPU上的短程力計算流程圖

圖2 模擬結果(暗物質(zhì)粒子分布密度場,粒子數(shù)256^3)
該研究成果已被超算領域的國際期刊Journal of Supercomputing(SCI,JCR Q2類)錄用。論文第一作者為中心高性能計算部的碩士研究生趙文龍,導師為王武副研究員。該研究提出的優(yōu)化方法已獲得授權發(fā)明專利(一種基于GPU的N體模擬程序性能優(yōu)化方法,ZL 202110077894.4)。研究工作得到了國家重點研發(fā)計劃、中國科學院戰(zhàn)略性先導科技專項和“十三五”科研信息化專項的支持。(撰稿:王武)
相關成果:
Wen?Long Zhao; Wu Wang; Qiao Wang,Optimization of cosmological N-body simulation with FMM-PM on SIMT accelerators,Journal of Supercomputing, 78(5):7186-7205, April 2022.
附件下載