近年來近場動力學(xué)理論已經(jīng)被應(yīng)用于材料科學(xué)、生命科學(xué)以及災(zāi)害預(yù)測等多個領(lǐng)域。然而近場動力學(xué)數(shù)值模擬訪因存量大以及計算量大,難以進(jìn)行大規(guī)模、長時間的近場動力學(xué)數(shù)值模擬。高性能計算部張鑒研究員指導(dǎo)的博士生李昕元基于開源近場動力學(xué)數(shù)值模擬軟件Peridigm在GPU上實現(xiàn)了大規(guī)模高性能的近場動力學(xué)數(shù)值模擬軟件,研究成果近期發(fā)表在CCF B類會議 IEEE International Parallel & Distributed Processing Symposium(IPDPS),并入選了最佳論文候選(大會共收錄4篇)。
該研究主要目標(biāo)是利用SIMT加速器提供的出色的計算能力,并結(jié)合開源軟件Peridigm提供的求解器,提供可以支持大規(guī)模、高性能的近場動力學(xué)數(shù)值模擬的模擬軟件。工作主要包含四個部分:移植、內(nèi)存優(yōu)化、計算優(yōu)化以及通信優(yōu)化。在移植方面首先根據(jù)模擬的熱點以及各部分的特點選擇將鍵式計算的部分放到GPU上進(jìn)行,同時考慮到GPU SIMT的特性,通過分析選擇了增加冗余計算的方式在幾乎不增加模擬時間的情況下將模擬的熱點部分部署到GPU上。為了解決模擬的訪存瓶頸,首先提出了線程分組策略來減少對訪問鄰居列表以及鍵損傷列表的訪問量,同時利用GPU提供的warp shuffle機制實現(xiàn)了線程組內(nèi)基于寄存器的快速數(shù)據(jù)共享。為了進(jìn)一步提高計算效率,通過調(diào)整計算核心函數(shù)的表達(dá)式來減少除法和開方這類高延遲指令。最后基于MPI異步通信以及GPU提供的Stream異步機制,實現(xiàn)了多級的overlap策略,使得CPU-GPU間數(shù)據(jù)移動以及進(jìn)程間數(shù)據(jù)通信的開銷都可以被計算所掩蓋。
該研究基于Peridigm提供的算例進(jìn)行了測試,在單節(jié)點上相比不進(jìn)行任何優(yōu)化的GPU版本,獲得了10.24倍的加速。同時跟目前已經(jīng)有的一些PD模擬軟件進(jìn)行了比較,在相同功耗下,相比CPU版本的Peridigm可以獲得9倍的加速比;相比在神威太湖之光上開發(fā)的近場動力學(xué)應(yīng)用可以獲得2.5倍的加速比。對于弱擴展性,當(dāng)進(jìn)程數(shù)從4進(jìn)程擴展到512進(jìn)程,擴展性接近線性;對于強擴展性,當(dāng)進(jìn)程數(shù)從4擴展到256,并行效率可以達(dá)到60%。(撰稿:李昕元)
相關(guān)成果:
Xinyuan Li, Huang Ye, and Jian Zhang.”Redesigning Peridigm on SIMT Accelerators for High-performance Peridynamics Simulations”,35th IEEE International Parallel & Distributed Processing Symposium (IPDPS’ 2021).

圖1 各項工作的加速比。PAR是基礎(chǔ)的GPU版本,GRP對應(yīng)線程分組策略、REF對應(yīng)計算優(yōu)化、SHAR對應(yīng)warp shuffle數(shù)據(jù)共享策略、FIN對應(yīng)最終版本

圖2 弱擴展性測試結(jié)果