日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 數碼

AMD Instinct數據中心GPU第一時間支持DeepSeek!FP8高性能提升顯著

來源: 責編: 時間:2025-02-13 10:50:03 91觀看
導讀 快科技2月10日消息,DeepSeek大模型火遍海內外,AMD Instinct數據中心GPU第一時間實現了對新版DeepSeek V3的支持,并且集成了SGLang推理框架優化,從而提供佳性能。據介紹,DeepSeek-V3是一種強大的開源混合專家MoE

快科技2月10日消息,DeepSeek大模型火遍海內外,AMD Instinct數據中心GPU第一時間實現了對新版DeepSeek V3的支持,并且集成了SGLang推理框架優化,從而提供佳性能。A5z28資訊網——每日最新資訊28at.com

據介紹,DeepSeek-V3是一種強大的開源混合專家MoE模型,共有6710億個參數,是目前開源社區受歡迎的多模態模型之一,憑借創新的模型架構,打破了高效低成本訓練的記錄,獲得整個行業交口稱贊。A5z28資訊網——每日最新資訊28at.com

DeepSeek-V3不僅沿用了此前DeepSeek V2中的多頭潛在注意力機制MLA、MoE架構,還開創了無輔助損失的負載平衡策略,并設定了多token預測訓練目標,以提高性能。A5z28資訊網——每日最新資訊28at.com

目前,DeepSeek-V3在眾多主流基準測試中的表現都已比肩世界頂級開源、閉源模型,包括GPT-4o、laude 3.5 Sonnet、Qwen2.5-72B等等,尤其是擁有超強的長文本處理、數學及代碼編程能力。A5z28資訊網——每日最新資訊28at.com

AMD ROCm開源軟件、AMD Instinct數據中心GPU加速器軟硬聯合,構成了強大的基礎設施,在DeepSeek-V3開發的關鍵階段發揮了重要作用,再次證明了AMD對開源AI軟件的承諾,也能幫助開發者打造強大的視覺推理和理解應用。A5z28資訊網——每日最新資訊28at.com

DeepSeek-V3的另一大亮點是采用FP8低精度訓練,而AMD ROCm平臺對于FP8的支持,顯著改善了大模型的計算過程,尤其是推理性能的提升。A5z28資訊網——每日最新資訊28at.com

通過支持FP8,AMD ROCm非常高效地解決了內存瓶頸、更多讀寫格式高延遲等問題,可以在一定的硬件限制內,運行更大的模型或批次。A5z28資訊網——每日最新資訊28at.com

相較于FP16,FP8精度計算可以顯著減少數據傳輸和計算的延遲,實現更高效地訓練和推理。A5z28資訊網——每日最新資訊28at.com

乘著DeepSeek的東風,AMD將繼續推進ROCm開源開發生態,確保開發者能在第一時間基于AMD Instinct數據中心GPU從事DeepSeek相關的開發和應用工作,實現佳性能和擴展性。A5z28資訊網——每日最新資訊28at.com

AMD Instinct數據中心GPU第一時間支持DeepSeek!FP8高性能提升顯著A5z28資訊網——每日最新資訊28at.com

AMD官方博客傳送門:A5z28資訊網——每日最新資訊28at.com

https://www.amd.com/en/developer/resources/technical-articles/amd-instinct-gpus-power-deepseek-v3-revolutionizing-ai-development-with-sglang.htmlA5z28資訊網——每日最新資訊28at.com

附錄:AMD Instinct數據中心GPU使用SGLang推理簡單教程——A5z28資訊網——每日最新資訊28at.com

開發者可訪問https://github.com/sgl-project/sglang/releases,獲取SGLang對DeepSeek-V3模型推理的完整支持。A5z28資訊網——每日最新資訊28at.com

創建ROCm Docker鏡像A5z28資訊網——每日最新資訊28at.com

1、啟動Docker容器:A5z28資訊網——每日最新資訊28at.com

docker run -it --ipc=host --cap-add=SYS_PTRACE --network=host //A5z28資訊網——每日最新資訊28at.com

      --device=/dev/kfd   --device=/dev/dri    --security-opt A5z28資訊網——每日最新資訊28at.com

seccomp=unconfined // A5z28資訊網——每日最新資訊28at.com

      --group-add video  --privileged  -w /workspaceA5z28資訊網——每日最新資訊28at.com

lmsysorg/sglang:v0.4.1.post4-rocm620A5z28資訊網——每日最新資訊28at.com

2、開始使用:A5z28資訊網——每日最新資訊28at.com

 1)登錄Hugging Face:A5z28資訊網——每日最新資訊28at.com

使用CLI登錄Hugging Face:A5z28資訊網——每日最新資訊28at.com

 huggingface-cli loginA5z28資訊網——每日最新資訊28at.com

 2)啟動SGLang服務器:A5z28資訊網——每日最新資訊28at.com

 在本地機器上啟動一個服務器來托管DeepSeekV3 FP8模型:A5z28資訊網——每日最新資訊28at.com

 python3 -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3 -- port 30000 --tp 8 --trust-remote-codeA5z28資訊網——每日最新資訊28at.com

 3)生成文本:A5z28資訊網——每日最新資訊28at.com

 在服務器運行后,打開另一個終端并發送請求生成文本:A5z28資訊網——每日最新資訊28at.com

 curl http://localhost:30000/generate /A5z28資訊網——每日最新資訊28at.com

    -H "Content-Type: application/json" /A5z28資訊網——每日最新資訊28at.com

    -d '{A5z28資訊網——每日最新資訊28at.com

       "text": "Once upon a time,",A5z28資訊網——每日最新資訊28at.com

       "sampling_params": {A5z28資訊網——每日最新資訊28at.com

         "max_new_tokens": 16,A5z28資訊網——每日最新資訊28at.com

         "temperature": 0A5z28資訊網——每日最新資訊28at.com

        }A5z28資訊網——每日最新資訊28at.com

      }'A5z28資訊網——每日最新資訊28at.com

3、性能基準測試:A5z28資訊網——每日最新資訊28at.com

單批次吞吐量和延遲:A5z28資訊網——每日最新資訊28at.com

python3 -m sglang.bench_one_batch --batch-size 32 --input 128 --output 32 --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-codeA5z28資訊網——每日最新資訊28at.com

服務器:A5z28資訊網——每日最新資訊28at.com

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-codeA5z28資訊網——每日最新資訊28at.com

python3 benchmark/gsm8k/bench_sglang.py --num-questions 2000 --parallel 2000 --num-shots 8A5z28資訊網——每日最新資訊28at.com

精度:0.952A5z28資訊網——每日最新資訊28at.com

無效:0.000A5z28資訊網——每日最新資訊28at.com

注意:由于DeepSeek-v3原生為FP8 訓練,且目前僅提供 FP8 權重,如果用戶需要 BF16 權重進行實驗,可以使用提供的轉換腳本進行轉換。以下是將 FP8 權重轉換為 BF16 的示例:A5z28資訊網——每日最新資訊28at.com

cd inferenceA5z28資訊網——每日最新資訊28at.com

python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weightsA5z28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-24-130048-0.htmlAMD Instinct數據中心GPU第一時間支持DeepSeek!FP8高性能提升顯著

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 藍寶石自曝RX 9070 XT:純白設計 煞是好看

下一篇: 鎧俠全面展示AI SSD:不只是快 穩定性更高達99.999%!

標簽:
  • 熱門焦點
  • Rust中的高吞吐量流處理

    作者 | Noz編譯 | 王瑞平本篇文章主要介紹了Rust中流處理的概念、方法和優化。作者不僅介紹了流處理的基本概念以及Rust中常用的流處理庫,還使用這些庫實現了一個流處理程序
  • 掘力計劃第 20 期:Flutter 混合開發的混亂之治

    在掘力計劃系列活動第20場,《Flutter 開發實戰詳解》作者,掘金優秀作者,Github GSY 系列目負責人戀貓的小郭分享了Flutter 混合開發的混亂之治。Flutter 基于自研的 Skia 引擎
  • Golang 中的 io 包詳解:組合接口

    io.ReadWriter// ReadWriter is the interface that groups the basic Read and Write methods.type ReadWriter interface { Reader Writer}是對Reader和Writer接口的組合,
  • 一篇聊聊Go錯誤封裝機制

    %w 是用于錯誤包裝(Error Wrapping)的格式化動詞。它是用于 fmt.Errorf 和 fmt.Sprintf 函數中的一個特殊格式化動詞,用于將一個錯誤(或其他可打印的值)包裝在一個新的錯誤中。使
  • 使用LLM插件從命令行訪問Llama 2

    最近的一個大新聞是Meta AI推出了新的開源授權的大型語言模型Llama 2。這是一項非常重要的進展:Llama 2可免費用于研究和商業用途。(幾小時前,swyy發現它已從LLaMA 2更名為Lla
  • 一個注解實現接口冪等,這樣才優雅!

    場景碼猿慢病云管理系統中其實高并發的場景不是很多,沒有必要每個接口都去考慮并發高的場景,比如添加住院患者的這個接口,具體的業務代碼就不貼了,業務偽代碼如下:圖片上述代碼有
  • 破圈是B站頭上的緊箍咒

    來源 | 光子星球撰文 | 吳坤諺編輯 | 吳先之每年的暑期檔都少不了瞄準追劇女孩們的古偶劇集,2021年有優酷的《山河令》,2022年有愛奇藝的《蒼蘭訣》,今年卻輪到小破站抓住了追
  • 騰訊VS網易,最卷游戲暑期檔,誰能笑到最后?

    作者:無銹缽來源:財經無忌7月16日晚,上海1862時尚藝術中心。伴隨著幻象的精準命中,碩大的熒幕之上,比分被定格在了14:12,被寄予厚望的EDG戰隊以絕對的優勢戰勝了BLG戰隊,拿下了總決
  • 蘋果公司要求三星和LG Display生產「無邊框」OLED iPhone顯示屏

    據 The Elec 報道,蘋果已要求其供應商為未來的 iPhone 型號開發「無邊框」OLED 顯示面板。蘋果顯然已要求三星和 LG Display 開發新的 OLED 顯示面
Top 主站蜘蛛池模板: 铁岭县| 建宁县| 黔西| 镇沅| 桐乡市| 儋州市| 普安县| 五家渠市| 遵义市| 巫山县| 松原市| 红桥区| 新宁县| 阿尔山市| 桓仁| 嘉善县| 潢川县| 买车| 新乡县| 大同县| 横峰县| 平定县| 门源| 健康| 河曲县| 深水埗区| 穆棱市| 金华市| 平安县| 沙湾县| 安达市| 东乡族自治县| 石河子市| 禄丰县| 石门县| 永定县| 迁西县| 惠东县| 永春县| 来凤县| 江华|