日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 數碼

原生FP8!摩爾線程GPU閃電適配DeepSeek開源庫FlashMLA、DeepGEMM

來源: 責編: 時間:2025-02-27 08:16:17 59觀看
導讀 快科技2月26日消息,DeepSeek啟動“開源周”以來,已經陸續開源了三個代碼庫,而作為國產GPU的代表,摩爾線程已經快速完成對FlashMLA、DeepGEMM的適配。摩爾線程GPU基于全新的MUSA Compute Capability 3

快科技2月26日消息,DeepSeek啟動“開源周”以來,已經陸續開源了三個代碼庫,而作為國產GPU的代表,摩爾線程已經快速完成對FlashMLA、DeepGEMM的適配。bbz28資訊網——每日最新資訊28at.com

摩爾線程GPU基于全新的MUSA Compute Capability 3.1計算架構,可提供原生的FP8精度計算能力,同時升級了高性能線性代數模板庫MUTLASS,快速支持FlashMLA。bbz28資訊網——每日最新資訊28at.com

不僅如此,摩爾線程還基于MUTLASS,在全新GPU架構上優化實現了FP8矩陣乘法,支持DeepGEMM的相應功能。bbz28資訊網——每日最新資訊28at.com

原生FP8!摩爾線程GPU閃電適配DeepSeek開源庫FlashMLA、DeepGEMMbbz28資訊網——每日最新資訊28at.com

FlashMLA是一款高效的MLA推理內核開源倉庫,可以加速MLA機制的計算,特別適用于DeepSeek系列模型,包括DeepSeek-V2、V3、R1。bbz28資訊網——每日最新資訊28at.com

DeepGEMM是一個支持密集矩陣與混合專家(MoE)矩陣乘法的FP8 GEMM庫,可以為V3/R1的訓練與推理提供強大動力。bbz28資訊網——每日最新資訊28at.com

這兩個重要的開源倉庫,都基于高性能通用矩陣乘法(GEMM)的C++模板庫進行開發。bbz28資訊網——每日最新資訊28at.com

摩爾線程基于新一代計算架構MUSA Compute Capability 3.1的全功能GPU,具備全新的Tensor計算引擎及數據搬運引擎,能夠提供原生FP8計算能力。bbz28資訊網——每日最新資訊28at.com

升級的MUTLASS高性能線性代數模板庫,支持MUSA Compute Capability 3.1的全新特性,并提供了若干算子的優化參考實現,包括基于FlashAttention3思想實現的FlashMLA以及FP8矩陣乘算子,特別支持DeepSeek訓練所需的Groupwise Scaling FP8矩陣乘法內核函數。bbz28資訊網——每日最新資訊28at.com

得益于全新的Tensor計算引擎,FP8計算具有足夠高的累加精度,無需額外的二次精度修正,為前沿算法的探索打下了堅實基礎。 bbz28資訊網——每日最新資訊28at.com

原生FP8!摩爾線程GPU閃電適配DeepSeek開源庫FlashMLA、DeepGEMMbbz28資訊網——每日最新資訊28at.com

借助MUTLASS 0.2.0,摩爾線程發布了開源倉庫MT-FlashMLA,能夠快速對DeepSeek FlashMLA進行兼容部署。bbz28資訊網——每日最新資訊28at.com

同時,摩爾線程MUTLASS提供了一個全新的參考實現,充分汲取FlashAttention3的先進算法思想,針對摩爾線程GPU設計了全新的計算流水線。bbz28資訊網——每日最新資訊28at.com

這一設計能夠有效掩藏數據搬運的延遲和Softmax計算的開銷,充分發揮摩爾線程MUSA Compute Capability 3.1全功能GPU的Tensor計算效率。bbz28資訊網——每日最新資訊28at.com

▼ MT-FlashMLA開源地址:bbz28資訊網——每日最新資訊28at.com

https://github.com/MooreThreads/MT-flashMLAbbz28資訊網——每日最新資訊28at.com

▼ MUTLASS FlashAttention3地址:bbz28資訊網——每日最新資訊28at.com

https://github.com/MooreThreads/mutlass/tree/main/experimental/mp31_flash_attention_fwdbbz28資訊網——每日最新資訊28at.com

▼ MUTLASS FP8 GEMM地址:bbz28資訊網——每日最新資訊28at.com

https://github.com/MooreThreads/mutlass/tree/main/examples/02_mp31_fp8_gemm_with_collective_builderbbz28資訊網——每日最新資訊28at.com

https://github.com/MooreThreads/mutlass/tree/main/examples/03_mp31_fp8_scaling_gemmbbz28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-24-133910-0.html原生FP8!摩爾線程GPU閃電適配DeepSeek開源庫FlashMLA、DeepGEMM

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: EK 推出 RTX 5090 FE 專屬水冷頭,329.90 歐元,支持三區 PCB 設計

下一篇: RTX 5060 Ti功耗小幅增至180W:還是8/16GB兩種顯存

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 宽甸| 莒南县| 同江市| 北流市| 长岭县| 剑河县| 昆山市| 安远县| 驻马店市| 秭归县| 赤壁市| 隆尧县| 大洼县| 屏东市| 栾川县| 宿迁市| 融水| 龙川县| 天祝| 沾化县| 宜良县| 土默特右旗| 崇礼县| 东安县| 南投市| 安吉县| 江油市| 青铜峡市| 肥东县| 清河县| 常熟市| 彰化市| 霍邱县| 根河市| 十堰市| 右玉县| 韩城市| 安化县| 文水县| 新竹市| 云浮市|