日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

DeepSeek 開源進度 3 5:深度學習利器 DeepGEMM

來源: 責編: 時間:2025-02-28 12:38:35 78觀看
導讀 2 月 26 日消息,DeepSeek“開源周”的進度今日來到 3/5:支持稠密和混合專家模型 (MoE) 的 FP8 矩陣乘法 (GEMM) 庫,用以驅動 V3 / R1 模型的訓練和推理。在 Hopper GPU 上可實現高達 1350+ FP8 TFLOPS 性能無復

2 月 26 日消息,DeepSeek“開源周”的進度今日來到 3/5:支持稠密和混合專家模型 (MoE) 的 FP8 矩陣乘法 (GEMM) 庫,用以驅動 V3 / R1 模型的訓練和推理。9bt28資訊網——每日最新資訊28at.com

9bt28資訊網——每日最新資訊28at.com

在 Hopper GPU 上可實現高達 1350+ FP8 TFLOPS 性能9bt28資訊網——每日最新資訊28at.com

無復雜依賴,代碼簡潔如教程9bt28資訊網——每日最新資訊28at.com

完全采用即時編譯技術(Just-In-Time)9bt28資訊網——每日最新資訊28at.com

核心代碼僅約 300 行 —— 在大多數矩陣尺寸下超越了專家優化的內核9bt28資訊網——每日最新資訊28at.com

支持稠密布局和兩種 MoE 布局9bt28資訊網——每日最新資訊28at.com

附開源鏈接:https://github.com/deepseek-ai/DeepGEMM9bt28資訊網——每日最新資訊28at.com

官方介紹大意如下:9bt28資訊網——每日最新資訊28at.com

DeepGEMM 是一個專為高效且清晰的 FP8 通用矩陣乘法(GEMM)設計的庫,具備 DeepSeek-V3 所提出的精細化縮放能力。它支持普通的 GEMM 以及 Mix-of-Experts (MoE) 分組 GEMM。9bt28資訊網——每日最新資訊28at.com

該庫基于 CUDA 編寫,在安裝時無需預編譯,而是通過輕量級的即時編譯(JIT)模塊,在運行時動態編譯所有內核。9bt28資訊網——每日最新資訊28at.com

目前,DeepGEMM 僅支持 NVIDIA Hopper 張量核心。為了應對 FP8 張量核心累加不精確的問題,它使用了 CUDA 核心的兩級累加(提升)方法。雖然它借鑒了部分 CUTLASS 和 CuTe 的理念,但并未過度依賴它們的模板或代數結構。9bt28資訊網——每日最新資訊28at.com

DeepGEMM 的設計簡潔,核心內核函數只有大約 300 行代碼,方便學習 Hopper FP8 矩陣乘法和優化技術。9bt28資訊網——每日最新資訊28at.com

盡管采用輕量設計,DeepGEMM 在多種矩陣形狀下的性能表現與專家優化的庫相當,甚至更好。9bt28資訊網——每日最新資訊28at.com

我們在 H800 上,使用 NVCC 12.8 測試了 DeepSeek-V3 / R1 推理中可能用到的各種矩陣形狀(包括預填充和解碼,但不涉及張量并行)。所有加速指標都是相對于我們內部精心優化的 CUTLASS 3.6 實現計算的。9bt28資訊網——每日最新資訊28at.com

DeepGEMM 在某些矩陣形狀下的表現不盡如人意,歡迎有興趣的朋友提交優化 PR。9bt28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-11196-0.htmlDeepSeek 開源進度 3 5:深度學習利器 DeepGEMM

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 香港:預留 10 億港元成立人工智能研發院

下一篇: 豪擲 2000 億美元,消息稱 Meta 正洽談 AI 數據中心園區新項目

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 芜湖县| 易门县| 永昌县| 谢通门县| 图片| 南陵县| 如皋市| 德阳市| 曲靖市| 腾冲县| 炎陵县| 湖口县| 嘉义市| 宁明县| 上栗县| 方城县| 同心县| 永福县| 西贡区| 宁波市| 苗栗市| 县级市| 兴业县| 华宁县| 南昌县| 习水县| 镇康县| 绥江县| 班戈县| 肥西县| 敦化市| 阿城市| 澳门| 汉沽区| 柏乡县| 广德县| 息烽县| 乌兰察布市| 南和县| 南宁市| 彰武县|