<li id="kccc0"></li>

當前位置：首頁 > 元宇宙 > AI

DeepSeek 開源進度 3 5：深度學習利器 DeepGEMM

來源：責編：時間：2025-02-28 12:38:35 98觀看

導讀 2 月 26 日消息，DeepSeek“開源周”的進度今日來到 3/5：支持稠密和混合專家模型 (MoE) 的 FP8 矩陣乘法 (GEMM) 庫，用以驅動 V3 / R1 模型的訓練和推理。在 Hopper GPU 上可實現高達 1350+ FP8 TFLOPS 性能無復

2 月 26 日消息，DeepSeek“開源周”的進度今日來到 3/5：支持稠密和混合專家模型 (MoE) 的 FP8 矩陣乘法 (GEMM) 庫，用以驅動 V3 / R1 模型的訓練和推理。

在 Hopper GPU 上可實現高達 1350+ FP8 TFLOPS 性能

無復雜依賴，代碼簡潔如教程

完全采用即時編譯技術（Just-In-Time）

核心代碼僅約 300 行 —— 在大多數矩陣尺寸下超越了專家優化的內核

支持稠密布局和兩種 MoE 布局

附開源鏈接：https://github.com/deepseek-ai/DeepGEMM

官方介紹大意如下：

DeepGEMM 是一個專為高效且清晰的 FP8 通用矩陣乘法（GEMM）設計的庫，具備 DeepSeek-V3 所提出的精細化縮放能力。它支持普通的 GEMM 以及 Mix-of-Experts (MoE) 分組 GEMM。

該庫基于 CUDA 編寫，在安裝時無需預編譯，而是通過輕量級的即時編譯（JIT）模塊，在運行時動態編譯所有內核。

目前，DeepGEMM 僅支持 NVIDIA Hopper 張量核心。為了應對 FP8 張量核心累加不精確的問題，它使用了 CUDA 核心的兩級累加（提升）方法。雖然它借鑒了部分 CUTLASS 和 CuTe 的理念，但并未過度依賴它們的模板或代數結構。

DeepGEMM 的設計簡潔，核心內核函數只有大約 300 行代碼，方便學習 Hopper FP8 矩陣乘法和優化技術。

盡管采用輕量設計，DeepGEMM 在多種矩陣形狀下的性能表現與專家優化的庫相當，甚至更好。

我們在 H800 上，使用 NVCC 12.8 測試了 DeepSeek-V3 / R1 推理中可能用到的各種矩陣形狀（包括預填充和解碼，但不涉及張量并行）。所有加速指標都是相對于我們內部精心優化的 CUTLASS 3.6 實現計算的。

DeepGEMM 在某些矩陣形狀下的表現不盡如人意，歡迎有興趣的朋友提交優化 PR。

本文鏈接：http://www.www897cc.com/showinfo-45-11196-0.htmlDeepSeek 開源進度 3 5：深度學習利器 DeepGEMM

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：香港：預留 10 億港元成立人工智能研發院

下一篇：豪擲 2000 億美元，消息稱 Meta 正洽談 AI 數據中心園區新項目

標簽：

熱門焦點

“平均時代”：ChatGPT模仿秀的隱喻

來源：錦緞如果你問ChatGPT，Instagram上最美的女人是誰？它很可能會給你一個名字，叫卡戴珊。如果你觀察過Instagram這個美版小紅書：平臺上的所有網紅，展現的幾乎是統一面孔：統一的醫
汽車元宇宙，是概念還是未來？

作者｜何文元宇宙是未來趨勢已經無需驗證。從概念上來看，元宇宙是兩種存在多年的概念的融合：虛擬現實和數字第二人生。這也就意味著，元宇宙所代表的是一種新的數
Niantic與索尼在音頻AR領域達成合作；?蘋果為Apple Park申請形象化商標

今日熱點：迪士尼任命新高管負責元宇宙業務；iFixit成為Valve Index VR頭顯和Steam Deck首家零件銷售商；Niantic與索尼達成合作，將為AR游戲《Ingress》帶來音頻體驗；V
美國一區塊鏈風投公司宣布成立2.5億美元web3投資新基金

No.1 俄羅斯財政部長: 在俄羅斯禁止比特幣就如禁止互聯網一樣2月16日消息，俄羅斯財政部長安東·西盧安諾夫（Anton Siluanov）表示，在俄羅斯禁止加密貨幣就跟禁止互
2022年最具關注的9個頭像NFT項目

什么是 PFP NFT 項目？PFP NFT （個人資料圖片NFT）是一組獨特的數字收藏品，人們用來在互聯網平臺上代表自己。這些數字藝術作品通常是一系列可作為頭像的角色，在 Twit
以太坊升級將會帶來的5個改變

以太坊自2015年誕生以來就廣受歡迎，但最近其昂貴的交易費用和低可擴展性對執行復雜的應用程序產生了負面作用，用戶對以太坊改進的需求也日益急迫。以太坊2.0已進
DAO登上了歷史舞臺，但是主流準備好采用DAO了嗎？

Block-807DAO要么是定義虛擬未來、無領導組織的革命性概念，要么是充滿存在主義和自我毀滅挑戰的反烏托邦結構，取決于你在與誰交談。近幾個月來， DAO已經從Crypto
解決NFT流動性問題：一文了解Floor DAO

流動性是證券市場上的一個術語，流動性是指資產在不影響其市場價格的情況下可以轉換為現成現金的效率，流動性最強的資產是現金本身。現在讓我們試著從流動性的角
Snoop Dogg 計劃推出致力于數字媒體NFT的專業公司

雅痞哥不知道這人是誰還上新聞，問了助理，解釋，相當于美版劉歡的地位吧。Snoop Dogg 在 NFT 領域已經有一段時間了，尤其是在最近有消息稱人們在元宇宙中購買房地產

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

DeepSeek 開源進度 3 5：深度學習利器 DeepGEMM

“平均時代”：ChatGPT模仿秀的隱喻

汽車元宇宙，是概念還是未來？

Niantic與索尼在音頻AR領域達成合作；?蘋果為Apple Park申請形象化商標

美國一區塊鏈風投公司宣布成立2.5億美元web3投資新基金

2022年最具關注的9個頭像NFT項目

以太坊升級將會帶來的5個改變

DAO登上了歷史舞臺，但是主流準備好采用DAO了嗎？

解決NFT流動性問題：一文了解Floor DAO

Snoop Dogg 計劃推出致力于數字媒體NFT的專業公司

最新推薦

元宇宙里掀起回憶殺？這波虛擬懷舊營銷主打一個極限反差

網易音樂、理想申請元宇宙商標被駁回，“啫喱”暫停新用戶進入

超級碗的加密時刻：是主流信號還是“網絡超級碗2.0”？

韓國建立元宇宙生態系統，智度股份發布元宇宙社區Meta彼岸

頭像類NFTs的統治能持續多久？

這場虛擬發布會，當面“造假”！

猜你喜歡

熱門推薦

相關資訊