當前位置：首頁 > 科技 > 數碼

AMD Instinct數據中心GPU第一時間支持DeepSeek！FP8高性能提升顯著

來源：責編：時間：2025-02-13 10:50:03 91觀看

導讀快科技2月10日消息，DeepSeek大模型火遍海內外，AMD Instinct數據中心GPU第一時間實現了對新版DeepSeek V3的支持，并且集成了SGLang推理框架優化，從而提供佳性能。據介紹，DeepSeek-V3是一種強大的開源混合專家MoE

快科技2月10日消息，DeepSeek大模型火遍海內外，AMD Instinct數據中心GPU第一時間實現了對新版DeepSeek V3的支持，并且集成了SGLang推理框架優化，從而提供佳性能。

據介紹，DeepSeek-V3是一種強大的開源混合專家MoE模型，共有6710億個參數，是目前開源社區受歡迎的多模態模型之一，憑借創新的模型架構，打破了高效低成本訓練的記錄，獲得整個行業交口稱贊。

DeepSeek-V3不僅沿用了此前DeepSeek V2中的多頭潛在注意力機制MLA、MoE架構，還開創了無輔助損失的負載平衡策略，并設定了多token預測訓練目標，以提高性能。

目前，DeepSeek-V3在眾多主流基準測試中的表現都已比肩世界頂級開源、閉源模型，包括GPT-4o、laude 3.5 Sonnet、Qwen2.5-72B等等，尤其是擁有超強的長文本處理、數學及代碼編程能力。

AMD ROCm開源軟件、AMD Instinct數據中心GPU加速器軟硬聯合，構成了強大的基礎設施，在DeepSeek-V3開發的關鍵階段發揮了重要作用，再次證明了AMD對開源AI軟件的承諾，也能幫助開發者打造強大的視覺推理和理解應用。

DeepSeek-V3的另一大亮點是采用FP8低精度訓練，而AMD ROCm平臺對于FP8的支持，顯著改善了大模型的計算過程，尤其是推理性能的提升。

通過支持FP8，AMD ROCm非常高效地解決了內存瓶頸、更多讀寫格式高延遲等問題，可以在一定的硬件限制內，運行更大的模型或批次。

相較于FP16，FP8精度計算可以顯著減少數據傳輸和計算的延遲，實現更高效地訓練和推理。

乘著DeepSeek的東風，AMD將繼續推進ROCm開源開發生態，確保開發者能在第一時間基于AMD Instinct數據中心GPU從事DeepSeek相關的開發和應用工作，實現佳性能和擴展性。

AMD Instinct數據中心GPU第一時間支持DeepSeek！FP8高性能提升顯著

AMD官方博客傳送門：

https://www.amd.com/en/developer/resources/technical-articles/amd-instinct-gpus-power-deepseek-v3-revolutionizing-ai-development-with-sglang.html

附錄：AMD Instinct數據中心GPU使用SGLang推理簡單教程——

開發者可訪問https://github.com/sgl-project/sglang/releases，獲取SGLang對DeepSeek-V3模型推理的完整支持。

創建ROCm Docker鏡像

1、啟動Docker容器：

docker run -it --ipc=host --cap-add=SYS_PTRACE --network=host //

--device=/dev/kfd --device=/dev/dri --security-opt

seccomp=unconfined //

--group-add video --privileged -w /workspace

lmsysorg/sglang:v0.4.1.post4-rocm620

2、開始使用：

1)登錄Hugging Face：

使用CLI登錄Hugging Face：

huggingface-cli login

2)啟動SGLang服務器：

在本地機器上啟動一個服務器來托管DeepSeekV3 FP8模型：

python3 -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3 -- port 30000 --tp 8 --trust-remote-code

3)生成文本：

在服務器運行后，打開另一個終端并發送請求生成文本：

curl http://localhost:30000/generate /

-H "Content-Type: application/json" /

-d '{

"text": "Once upon a time,",

"sampling_params": {

"max_new_tokens": 16,

"temperature": 0

}

3、性能基準測試：

單批次吞吐量和延遲：

python3 -m sglang.bench_one_batch --batch-size 32 --input 128 --output 32 --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code

服務器：

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code

python3 benchmark/gsm8k/bench_sglang.py --num-questions 2000 --parallel 2000 --num-shots 8

精度：0.952

無效：0.000

注意：由于DeepSeek-v3原生為FP8 訓練，且目前僅提供 FP8 權重，如果用戶需要 BF16 權重進行實驗，可以使用提供的轉換腳本進行轉換。以下是將 FP8 權重轉換為 BF16 的示例：

cd inference

python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights

本文鏈接：http://www.www897cc.com/showinfo-24-130048-0.htmlAMD Instinct數據中心GPU第一時間支持DeepSeek！FP8高性能提升顯著

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：藍寶石自曝RX 9070 XT：純白設計煞是好看

下一篇：鎧俠全面展示AI SSD：不只是快穩定性更高達99.999％！

標簽：

熱門焦點

Rust中的高吞吐量流處理

作者 | Noz編譯 | 王瑞平本篇文章主要介紹了Rust中流處理的概念、方法和優化。作者不僅介紹了流處理的基本概念以及Rust中常用的流處理庫，還使用這些庫實現了一個流處理程序
掘力計劃第 20 期：Flutter 混合開發的混亂之治

在掘力計劃系列活動第20場，《Flutter 開發實戰詳解》作者，掘金優秀作者，Github GSY 系列目負責人戀貓的小郭分享了Flutter 混合開發的混亂之治。Flutter 基于自研的 Skia 引擎
Golang 中的 io 包詳解：組合接口

io.ReadWriter// ReadWriter is the interface that groups the basic Read and Write methods.type ReadWriter interface { Reader Writer}是對Reader和Writer接口的組合，
一篇聊聊Go錯誤封裝機制

%w 是用于錯誤包裝（Error Wrapping）的格式化動詞。它是用于 fmt.Errorf 和 fmt.Sprintf 函數中的一個特殊格式化動詞，用于將一個錯誤（或其他可打印的值）包裝在一個新的錯誤中。使
使用LLM插件從命令行訪問Llama 2

最近的一個大新聞是Meta AI推出了新的開源授權的大型語言模型Llama 2。這是一項非常重要的進展：Llama 2可免費用于研究和商業用途。(幾小時前，swyy發現它已從LLaMA 2更名為Lla
一個注解實現接口冪等，這樣才優雅！

場景碼猿慢病云管理系統中其實高并發的場景不是很多，沒有必要每個接口都去考慮并發高的場景，比如添加住院患者的這個接口，具體的業務代碼就不貼了，業務偽代碼如下：圖片上述代碼有
破圈是B站頭上的緊箍咒

來源 | 光子星球撰文 | 吳坤諺編輯 | 吳先之每年的暑期檔都少不了瞄準追劇女孩們的古偶劇集，2021年有優酷的《山河令》，2022年有愛奇藝的《蒼蘭訣》，今年卻輪到小破站抓住了追
騰訊VS網易，最卷游戲暑期檔，誰能笑到最后？

作者：無銹缽來源：財經無忌7月16日晚，上海1862時尚藝術中心。伴隨著幻象的精準命中，碩大的熒幕之上，比分被定格在了14：12，被寄予厚望的EDG戰隊以絕對的優勢戰勝了BLG戰隊，拿下了總決
蘋果公司要求三星和LG Display生產「無邊框」OLED iPhone顯示屏

據 The Elec 報道，蘋果已要求其供應商為未來的 iPhone 型號開發「無邊框」OLED 顯示面板。蘋果顯然已要求三星和 LG Display 開發新的 OLED 顯示面

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

AMD Instinct數據中心GPU第一時間支持DeepSeek！FP8高性能提升顯著

Rust中的高吞吐量流處理

掘力計劃第 20 期：Flutter 混合開發的混亂之治

Golang 中的 io 包詳解：組合接口

一篇聊聊Go錯誤封裝機制

使用LLM插件從命令行訪問Llama 2

一個注解實現接口冪等，這樣才優雅！

破圈是B站頭上的緊箍咒

騰訊VS網易，最卷游戲暑期檔，誰能笑到最后？

蘋果公司要求三星和LG Display生產「無邊框」OLED iPhone顯示屏

最新推薦

猜你喜歡

熱門推薦

相關資訊

AMD Instinct數據中心GPU第一時間支持DeepSeek！FP8高性能提升顯著

最新推薦

猜你喜歡

熱門推薦

相關資訊

AMD Instinct數據中心GPU第一時間支持DeepSeek！FP8高性能提升顯著