科學(xué)工作流由相互依賴的計算任務(wù)構(gòu)成,已成為現(xiàn)代科學(xué)計算的基石。隨著計算資源的快速提升、網(wǎng)絡(luò)與I/O帶寬發(fā)展相對滯后,以及在“超算互聯(lián)網(wǎng)”與“AI+大數(shù)據(jù)”等技術(shù)浪潮推動下數(shù)據(jù)密集型工作流的興起,數(shù)據(jù)交互環(huán)節(jié)已成為制約部分科學(xué)工作流性能的新瓶頸。
為優(yōu)化科學(xué)工作流計算任務(wù)與數(shù)據(jù)交互之間的協(xié)同,提高工作流的整體性能,近日,我中心高性能計算部科研團隊提出了面向HPC環(huán)境、以數(shù)據(jù)為中心的科學(xué)工作流執(zhí)行框架HPCFlow。HPCFlow采用數(shù)據(jù)驅(qū)動式異步執(zhí)行模式,節(jié)省集中式協(xié)調(diào)開銷,實現(xiàn)計算與數(shù)據(jù)交互的異步流水線式執(zhí)行;引入上下文感知的數(shù)據(jù)傳輸機制,提升不同場景下的數(shù)據(jù)傳輸效率;建立輸入數(shù)據(jù)同步機制,保障資源動態(tài)擴縮時跨節(jié)點并行任務(wù)的輸入數(shù)據(jù)完整性,增強系統(tǒng)在真實HPC集群中的適用性與魯棒性。生產(chǎn)級HPC環(huán)境的實證評估結(jié)果表明,HPCFlow能夠有效節(jié)省集中式協(xié)調(diào)開銷,實現(xiàn)計算與數(shù)據(jù)傳輸高效的異步流水線,在數(shù)據(jù)密集型場景下表現(xiàn)出顯著性能優(yōu)勢。
在大規(guī)模視頻處理工作流的實驗中,HPCFlow下實現(xiàn)了明顯的流水線overlap,節(jié)省了38.8%的延遲,證明相較于傳統(tǒng)的工作流執(zhí)行方式,HPCFlow能通過計算任務(wù)與數(shù)據(jù)交互之間的協(xié)同優(yōu)化,顯著降低科學(xué)工作流的總完成時間與端到端延遲。

面向HPC環(huán)境、以數(shù)據(jù)為中心的科學(xué)工作流執(zhí)行框架HPCFlow
該研究成果已被CCF Transactions on High Performance Computing (CCF THPC) (CCF C)錄用并發(fā)表。論文第一作者為我中心高性能計算部碩士研究生陳韜,通訊作者為王小寧副研究員。本研究得到了“超算互聯(lián)網(wǎng)資源共享關(guān)鍵技術(shù)研發(fā)及應(yīng)用”國家重點研發(fā)項目(2023YFB3002204)的支持。
相關(guān)成果:
Chen T, Wang X, Li G, et al. Revisiting workflow execution in HPC: a data-flow approach[J]. CCF Transactions on High Performance Computing, 2025: 1-14.(CCF C,第一作者)
責(zé)任編輯:郎楊琴