稀疏矩陣運(yùn)算在深度學(xué)習(xí)和科學(xué)計(jì)算等領(lǐng)域至關(guān)重要。但現(xiàn)有的非結(jié)構(gòu)化稀疏數(shù)據(jù)格式存在復(fù)雜的內(nèi)存訪問瓶頸與高昂的格式轉(zhuǎn)換開銷等瓶頸,導(dǎo)致當(dāng)前GPU難以充分釋放其硬件性能。
中心人工智能技術(shù)與應(yīng)用發(fā)展部門設(shè)計(jì)了面向GPU CUDA核心的高效稀疏矩陣向量乘算子Acc-SpMV。該研究通過綜合考慮矩陣和右端向量,使用矩陣重排、分塊、負(fù)載均衡和高效內(nèi)核實(shí)現(xiàn)方法有效克服了傳統(tǒng)方法中的訪存不連續(xù)和原子寫回沖突等核心瓶頸。實(shí)驗(yàn)表明,該算子在性能測試中超越現(xiàn)有的CUDA核心上的主流稀疏矩陣向量乘算子,同時(shí)也優(yōu)于在張量核心上的實(shí)現(xiàn)。

Acc-SpMV 整體設(shè)計(jì)
????針對GPU Tensor核心,設(shè)計(jì)了高效非結(jié)構(gòu)化稀疏計(jì)算框架PillarSparse。該研究通過設(shè)計(jì)新型稀疏數(shù)據(jù)格式與高效流水線計(jì)算內(nèi)核,有效克服了傳統(tǒng)方法中的多級內(nèi)存訪問和高昂格式轉(zhuǎn)換開銷等核心瓶頸。實(shí)驗(yàn)表明,在各項(xiàng)算子級別的性能測試中均超越現(xiàn)有的主流稀疏計(jì)算庫。在端到端圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練場景中,不僅在全批次任務(wù)中取得了顯著的加速效果,更能夠有效加速實(shí)時(shí)小批次圖采樣訓(xùn)練的張量核心解決方案。

PillarSparse 整體設(shè)計(jì)
此項(xiàng)研究成果已被國際設(shè)計(jì)自動化會議Design Automation Conference(DAC 2026,CCF推薦A類會議)錄用,該成果得到國家重點(diǎn)研發(fā)計(jì)劃和中國科學(xué)院先導(dǎo)專項(xiàng)的支持。前一成果第一作者為中心碩士研究生唐雷,通信作者為我中心研究員周純葆;后一成果第一作者為中心博士研究生顧峻瑜,通信作者為中心正高級工程師王玨。
相關(guān)成果:
[1] Tang Lei, Xin Zhikuang, Wang Zijian, Zhou Chunbao, Wang Jue and Wang Yangang. Acc-SpMV: Accelerating General-purpose Sparse Matrix-Vector Multiplication with GPU CUDA Cores. Proceedings of the 63st ACM/IEEE Design Automation Conference. 2026.
[2] Junyu Gu, Jue Wang, Zhikuang Xin, Zhiqiang Liang, Zongguo Wang, Hongyu Gao, Peng DI and Yangang Wang. PillarSparse: Rethinking Unstructured Sparse Formats for Tensor Cores. Proceedings of the 63st ACM/IEEE Design Automation Conference. 2026.
責(zé)任編輯:郎楊琴