高性能計算應(yīng)用的性能可移植性是應(yīng)對異構(gòu)架構(gòu)演進(jìn)的關(guān)鍵。近日,中心運行與應(yīng)用服務(wù)室與嶗山實驗室合作,在國產(chǎn)超算編程模型研究方面取得重要進(jìn)展,自主研發(fā)了面向神威異構(gòu)架構(gòu)的性能可移植后端——swKokkos。
研究團(tuán)隊針對神威處理器獨特的硬件約束,通過引入并行執(zhí)行抽象,實現(xiàn)了源代碼到二進(jìn)制級別的性能可移植,有效打破了C++模板密集型庫難以在神威從核執(zhí)行的障礙,極大降低了超算應(yīng)用的開發(fā)與遷移成本。swKokkos引入了向量化哈希索引與FDSL快速調(diào)度庫以降低內(nèi)核啟動開銷,并提出分塊并行映射算法來提升負(fù)載均衡與緩存利用率。在AXPY、數(shù)值求解器等任務(wù)中,swKokkos性能達(dá)到原生 Athread的 99%以上,并在海洋模型LICOM中成功支撐超10萬核規(guī)模的穩(wěn)定模擬獲得顯著加速。
相關(guān)研究成果已被系統(tǒng)軟件領(lǐng)域國際學(xué)術(shù)會議EuroSys 2026錄用。EuroSys為中國計算機(jī)學(xué)會(CCF)推薦的A類會議,代表了系統(tǒng)研究領(lǐng)域的最高水準(zhǔn)。本屆會議錄用率低至18.3%,該論文的第一作者為運行與應(yīng)用服務(wù)室博士生韋俊林,通訊作者為運行與應(yīng)用服務(wù)室姜金榮研究員。研究工作得到了中國科學(xué)院戰(zhàn)略性先導(dǎo)科技專項、國家重點研發(fā)計劃等項目的支持。

swKokkos示意圖
責(zé)任編輯:郎楊琴