快科技2月10日消息,DeepSeek大模型火遍海內外,AMD Instinct數據中心GPU第一時間實現了對新版DeepSeek V3的支持,并且集成了SGLang推理框架優化,從而提供佳性能。
據介紹,DeepSeek-V3是一種強大的開源混合專家MoE模型,共有6710億個參數,是目前開源社區受歡迎的多模態模型之一,憑借創新的模型架構,打破了高效低成本訓練的記錄,獲得整個行業交口稱贊。
DeepSeek-V3不僅沿用了此前DeepSeek V2中的多頭潛在注意力機制MLA、MoE架構,還開創了無輔助損失的負載平衡策略,并設定了多token預測訓練目標,以提高性能。
目前,DeepSeek-V3在眾多主流基準測試中的表現都已比肩世界頂級開源、閉源模型,包括GPT-4o、laude 3.5 Sonnet、Qwen2.5-72B等等,尤其是擁有超強的長文本處理、數學及代碼編程能力。
AMD ROCm開源軟件、AMD Instinct數據中心GPU加速器軟硬聯合,構成了強大的基礎設施,在DeepSeek-V3開發的關鍵階段發揮了重要作用,再次證明了AMD對開源AI軟件的承諾,也能幫助開發者打造強大的視覺推理和理解應用。
DeepSeek-V3的另一大亮點是采用FP8低精度訓練,而AMD ROCm平臺對于FP8的支持,顯著改善了大模型的計算過程,尤其是推理性能的提升。
通過支持FP8,AMD ROCm非常高效地解決了內存瓶頸、更多讀寫格式高延遲等問題,可以在一定的硬件限制內,運行更大的模型或批次。
相較于FP16,FP8精度計算可以顯著減少數據傳輸和計算的延遲,實現更高效地訓練和推理。
乘著DeepSeek的東風,AMD將繼續推進ROCm開源開發生態,確保開發者能在第一時間基于AMD Instinct數據中心GPU從事DeepSeek相關的開發和應用工作,實現佳性能和擴展性。
AMD官方博客傳送門:
https://www.amd.com/en/developer/resources/technical-articles/amd-instinct-gpus-power-deepseek-v3-revolutionizing-ai-development-with-sglang.html
附錄:AMD Instinct數據中心GPU使用SGLang推理簡單教程——
開發者可訪問https://github.com/sgl-project/sglang/releases,獲取SGLang對DeepSeek-V3模型推理的完整支持。
創建ROCm Docker鏡像
1、啟動Docker容器:
docker run -it --ipc=host --cap-add=SYS_PTRACE --network=host //
--device=/dev/kfd --device=/dev/dri --security-opt
seccomp=unconfined //
--group-add video --privileged -w /workspace
lmsysorg/sglang:v0.4.1.post4-rocm620
2、開始使用:
1)登錄Hugging Face:
使用CLI登錄Hugging Face:
huggingface-cli login
2)啟動SGLang服務器:
在本地機器上啟動一個服務器來托管DeepSeekV3 FP8模型:
python3 -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3 -- port 30000 --tp 8 --trust-remote-code
3)生成文本:
在服務器運行后,打開另一個終端并發送請求生成文本:
curl http://localhost:30000/generate /
-H "Content-Type: application/json" /
-d '{
"text": "Once upon a time,",
"sampling_params": {
"max_new_tokens": 16,
"temperature": 0
}
}'
3、性能基準測試:
單批次吞吐量和延遲:
python3 -m sglang.bench_one_batch --batch-size 32 --input 128 --output 32 --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code
服務器:
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code
python3 benchmark/gsm8k/bench_sglang.py --num-questions 2000 --parallel 2000 --num-shots 8
精度:0.952
無效:0.000
注意:由于DeepSeek-v3原生為FP8 訓練,且目前僅提供 FP8 權重,如果用戶需要 BF16 權重進行實驗,可以使用提供的轉換腳本進行轉換。以下是將 FP8 權重轉換為 BF16 的示例:
cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights
本文鏈接:http://www.www897cc.com/showinfo-24-130048-0.htmlAMD Instinct數據中心GPU第一時間支持DeepSeek!FP8高性能提升顯著
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com