我中心在深度學(xué)習(xí)和科學(xué)計(jì)算稀疏算子研發(fā)中取得進(jìn)展

2026-03-12 17:38 | 【放大縮小】 |

稀疏矩陣運(yùn)算在深度學(xué)習(xí)和科學(xué)計(jì)算等領(lǐng)域至關(guān)重要。但現(xiàn)有的非結(jié)構(gòu)化稀疏數(shù)據(jù)格式存在復(fù)雜的內(nèi)存訪問瓶頸與高昂的格式轉(zhuǎn)換開銷等瓶頸，導(dǎo)致當(dāng)前GPU難以充分釋放其硬件性能。

中心人工智能技術(shù)與應(yīng)用發(fā)展部門設(shè)計(jì)了面向GPU CUDA核心的高效稀疏矩陣向量乘算子Acc-SpMV。該研究通過綜合考慮矩陣和右端向量，使用矩陣重排、分塊、負(fù)載均衡和高效內(nèi)核實(shí)現(xiàn)方法有效克服了傳統(tǒng)方法中的訪存不連續(xù)和原子寫回沖突等核心瓶頸。實(shí)驗(yàn)表明，該算子在性能測試中超越現(xiàn)有的CUDA核心上的主流稀疏矩陣向量乘算子，同時(shí)也優(yōu)于在張量核心上的實(shí)現(xiàn)。

Acc-SpMV 整體設(shè)計(jì)

????針對GPU Tensor核心，設(shè)計(jì)了高效非結(jié)構(gòu)化稀疏計(jì)算框架PillarSparse。該研究通過設(shè)計(jì)新型稀疏數(shù)據(jù)格式與高效流水線計(jì)算內(nèi)核，有效克服了傳統(tǒng)方法中的多級內(nèi)存訪問和高昂格式轉(zhuǎn)換開銷等核心瓶頸。實(shí)驗(yàn)表明，在各項(xiàng)算子級別的性能測試中均超越現(xiàn)有的主流稀疏計(jì)算庫。在端到端圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練場景中，不僅在全批次任務(wù)中取得了顯著的加速效果，更能夠有效加速實(shí)時(shí)小批次圖采樣訓(xùn)練的張量核心解決方案。

PillarSparse 整體設(shè)計(jì)

此項(xiàng)研究成果已被國際設(shè)計(jì)自動化會議Design Automation Conference（DAC 2026，CCF推薦A類會議）錄用，該成果得到國家重點(diǎn)研發(fā)計(jì)劃和中國科學(xué)院先導(dǎo)專項(xiàng)的支持。前一成果第一作者為中心碩士研究生唐雷，通信作者為我中心研究員周純葆；后一成果第一作者為中心博士研究生顧峻瑜，通信作者為中心正高級工程師王玨。

相關(guān)成果：

[1] Tang Lei, Xin Zhikuang, Wang Zijian, Zhou Chunbao, Wang Jue and Wang Yangang. Acc-SpMV: Accelerating General-purpose Sparse Matrix-Vector Multiplication with GPU CUDA Cores. Proceedings of the 63st ACM/IEEE Design Automation Conference. 2026.

[2] Junyu Gu, Jue Wang, Zhikuang Xin, Zhiqiang Liang, Zongguo Wang, Hongyu Gao, Peng DI and Yangang Wang. PillarSparse: Rethinking Unstructured Sparse Formats for Tensor Cores. Proceedings of the 63st ACM/IEEE Design Automation Conference. 2026.

責(zé)任編輯：郎楊琴

附件下載

上一篇:我中心在加密流量檢測技術(shù)方面取得進(jìn)展下一篇:我中心參與的大模型增強(qiáng)拓?fù)洳牧现悄軉柎鹧芯咳〉眠M(jìn)展