快科技5月9日消息,近日,國產GPU廠商摩爾線程正式發布Torch-MUSA v2.0.0版本,這是其面向PyTorch深度學習框架的MUSA擴展庫的重要升級。
在Torch-MUSA中,用戶只需指定torch.device("musa"),即可將現有的PyTorch模型遷移到MUSA架構的GPU上運行,無需大幅修改代碼,目前Torch-MUSA已完全開源,可通過GitHub獲取源代碼。
作為本次升級的核心亮點,Torch-MUSA v2.0.0率先在國產GPU上實現了對FP8數據類型的完整支持。
FP8是當前AI計算的一種低精度格式,在支持原生FP8的GPU上,大語言模型訓練采用FP8混合精度可大幅提高GPU算力,降低顯存占用。
摩爾線程基于新一代MUSA Compute Capability 3.1計算架構的全功能GPU原生支持FP8計算,為Torch-MUSA v2.0.0實現FP8矩陣乘法和分布式通信優化提供了基礎。
依托這一底層架構優勢,Torch-MUSA v2.0.0能夠充分發揮FP8的計算效能,顯著提升大語言模型訓練和推理的效率。
Torch-MUSA v2.0.0在MUSA計算平臺引入多項創新功能,進一步提升深度學習任務的執行效率,主要包括:
1、新增虛擬內存管理支持:
MUSA虛擬內存管理技術能夠有效緩解GPU內存碎片化問題,降低模型訓練過程中的峰值內存占用,特別適用于FSDP、DeepSpeed和Megatron-LM等主流大模型訓練框架。
2、新增MUSA Graph支持:
MUSA Graph技術將多個MUSA內核整合到一個圖中,通過單次CPU調度大幅減少啟動開銷,提升計算效率,同時與CUDA Graph接口高效兼容。
3、torch.compile增加Triton后端支持:
為torch.compile提供了Triton-MUSA后端支持,開發者可以直接使用PyTorch原生接口,獲得更高效的性能表現。
不僅如此,Torch-MUSA v2.0.0在完整支持PyTorch 2.2.0的基礎上,還新增了對PyTorch 2.5.0的支持,使開發者能夠在基于MUSA Compute Capability 3.1計算架構的全功能GPU上,無縫運行新版本的PyTorch。
未來Torch-MUSA還將繼續跟進PyTorch的版本更新,計劃支持更高版本的PyTorch。
本文鏈接:http://www.www897cc.com/showinfo-24-148944-0.html國產GPU突破!摩爾線程發布Torch-MUSA v2.0.0:FP8原生支持
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com