當前位置：首頁 > 科技 > 數碼

原生FP8！摩爾線程GPU閃電適配DeepSeek開源庫FlashMLA、DeepGEMM

來源：責編：時間：2025-02-27 08:16:17 59觀看

導讀快科技2月26日消息，DeepSeek啟動“開源周”以來，已經陸續開源了三個代碼庫，而作為國產GPU的代表，摩爾線程已經快速完成對FlashMLA、DeepGEMM的適配。摩爾線程GPU基于全新的MUSA Compute Capability 3

快科技2月26日消息，DeepSeek啟動“開源周”以來，已經陸續開源了三個代碼庫，而作為國產GPU的代表，摩爾線程已經快速完成對FlashMLA、DeepGEMM的適配。

摩爾線程GPU基于全新的MUSA Compute Capability 3.1計算架構，可提供原生的FP8精度計算能力，同時升級了高性能線性代數模板庫MUTLASS，快速支持FlashMLA。

不僅如此，摩爾線程還基于MUTLASS，在全新GPU架構上優化實現了FP8矩陣乘法，支持DeepGEMM的相應功能。

原生FP8！摩爾線程GPU閃電適配DeepSeek開源庫FlashMLA、DeepGEMM

FlashMLA是一款高效的MLA推理內核開源倉庫，可以加速MLA機制的計算，特別適用于DeepSeek系列模型，包括DeepSeek-V2、V3、R1。

DeepGEMM是一個支持密集矩陣與混合專家（MoE）矩陣乘法的FP8 GEMM庫，可以為V3/R1的訓練與推理提供強大動力。

這兩個重要的開源倉庫，都基于高性能通用矩陣乘法（GEMM）的C++模板庫進行開發。

摩爾線程基于新一代計算架構MUSA Compute Capability 3.1的全功能GPU，具備全新的Tensor計算引擎及數據搬運引擎，能夠提供原生FP8計算能力。

升級的MUTLASS高性能線性代數模板庫，支持MUSA Compute Capability 3.1的全新特性，并提供了若干算子的優化參考實現，包括基于FlashAttention3思想實現的FlashMLA以及FP8矩陣乘算子，特別支持DeepSeek訓練所需的Groupwise Scaling FP8矩陣乘法內核函數。

得益于全新的Tensor計算引擎，FP8計算具有足夠高的累加精度，無需額外的二次精度修正，為前沿算法的探索打下了堅實基礎。

原生FP8！摩爾線程GPU閃電適配DeepSeek開源庫FlashMLA、DeepGEMM

借助MUTLASS 0.2.0，摩爾線程發布了開源倉庫MT-FlashMLA，能夠快速對DeepSeek FlashMLA進行兼容部署。

同時，摩爾線程MUTLASS提供了一個全新的參考實現，充分汲取FlashAttention3的先進算法思想，針對摩爾線程GPU設計了全新的計算流水線。

這一設計能夠有效掩藏數據搬運的延遲和Softmax計算的開銷，充分發揮摩爾線程MUSA Compute Capability 3.1全功能GPU的Tensor計算效率。

▼ MT-FlashMLA開源地址：

https://github.com/MooreThreads/MT-flashMLA

▼ MUTLASS FlashAttention3地址：

https://github.com/MooreThreads/mutlass/tree/main/experimental/mp31_flash_attention_fwd

▼ MUTLASS FP8 GEMM地址：

https://github.com/MooreThreads/mutlass/tree/main/examples/02_mp31_fp8_gemm_with_collective_builder

https://github.com/MooreThreads/mutlass/tree/main/examples/03_mp31_fp8_scaling_gemm

本文鏈接：http://www.www897cc.com/showinfo-24-133910-0.html原生FP8！摩爾線程GPU閃電適配DeepSeek開源庫FlashMLA、DeepGEMM

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： EK 推出 RTX 5090 FE 專屬水冷頭，329.90 歐元，支持三區 PCB 設計

下一篇： RTX 5060 Ti功耗小幅增至180W：還是8/16GB兩種顯存

標簽：

熱門焦點

如何正確使用:Has和:Nth-Last-Child

我們可以用CSS檢查，以了解一組元素的數量是否小于或等于一個數字。例如，一個擁有三個或更多子項的grid。你可能會想，為什么需要這樣做呢？在某些情況下，一個組件或一個布局可能會
自動化在DevOps中的力量：簡化軟件開發和交付

自動化在DevOps中扮演著重要角色，它提升了DevOps的效能。通過自動化工具和方法，DevOps團隊可以實現以下目標：消除手動和重復性任務。簡化流程。在整個軟件開發生命周期中實現更
3699元！iQOO Neo8 Pro頂配版今日首銷：1TB UFS 4.0同價位唯一

5月23日，iQOO推出了全新的iQOO Neo8系列，包含iQOO Neo8和iQOO Neo8 Pro兩個版本，其中標準版搭載高通驍龍8+，而Pro版更是首發搭載了聯發科天璣9200+旗艦
iQOO Neo8 Pro搶先上架：首發天璣9200+ 安卓性能之王

經過了一段時間的密集爆料，昨日iQOO官方如期對外宣布：將于5月23日推出全新的iQOO Neo8系列新品，官方稱這是一款擁有旗艦級性能調校的作品。隨著發布時
回歸OPPO兩年，一加贏了銷量，輸了品牌

成為OPPO旗下主打性能的先鋒品牌后，一加屢創佳績。今年618期間，一加手機全渠道銷量同比增長362%，憑借一加 11、一加 Ace 2、一加 Ace 2V三款爆品，一加
聯想的ThinkBook Plus下一版曝光，鍵盤旁邊塞個平板

ThinkBook Plus 是聯想的一個特殊筆記本類別，它在封面放入了一塊墨水屏，也給人留下了較為深刻的印象。據有人爆料，聯想的下一款 ThinkBook Plus 可能更特殊，它
onebot M24巧系列一體機采用輕薄機身設計，現已在各平臺開售

onebot M24 巧系列一體機目前已在線上線下各平臺同步開售。onebot M24 巧系列采用一體化輕薄機身設計，最薄處為 10.15mm，擁有寶石紅、午夜藍、石墨綠、雅致
由于成本持續增加，筆記本產品價格預計將明顯上漲

根據知情人士透露，由于材料、物流等成本持續增加，筆記本產品價格預計將在2021年下半年有明顯上漲。進入6月下旬以來，全球半導體芯片缺貨情況加劇，顯卡、處理器
榮耀Magic4 至臻版首創智慧隱私通話強勁影音系統

2022年第一季度臨近尾聲，在該季度內，許多品牌陸續發布自己的最新產品，讓大家從全新的角度來了解當今的手機技術。手機是電子設備中，更新迭代十分迅速的一款產品，基

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

原生FP8！摩爾線程GPU閃電適配DeepSeek開源庫FlashMLA、DeepGEMM

如何正確使用:Has和:Nth-Last-Child

自動化在DevOps中的力量：簡化軟件開發和交付

3699元！iQOO Neo8 Pro頂配版今日首銷：1TB UFS 4.0同價位唯一

iQOO Neo8 Pro搶先上架：首發天璣9200+ 安卓性能之王

回歸OPPO兩年，一加贏了銷量，輸了品牌

聯想的ThinkBook Plus下一版曝光，鍵盤旁邊塞個平板

onebot M24巧系列一體機采用輕薄機身設計，現已在各平臺開售

由于成本持續增加，筆記本產品價格預計將明顯上漲

榮耀Magic4 至臻版首創智慧隱私通話強勁影音系統

最新推薦

猜你喜歡

熱門推薦

相關資訊