日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 軟件

引領大模型推理效率革命!浪潮存儲領先發布推理加速存儲 AS3000G7

來源: 責編: 時間:2025-07-31 09:55:49 45觀看
導讀 2025 年 7 月 25 日,浪潮存儲營銷總監張業興出席中國信息通信研究院主辦的 2025(第二屆)產融合作大會。會上,張業興發表題為《融存智用運籌新數據 —— 浪潮存儲金融解決方案和實踐》的主題演講,并代表浪潮存儲領

2025 年 7 月 25 日,浪潮存儲營銷總監張業興出席中國信息通信研究院主辦的 2025(第二屆)產融合作大會。會上,張業興發表題為《融存智用運籌新數據 —— 浪潮存儲金融解決方案和實踐》的主題演講,并代表浪潮存儲領先發布推理加速存儲 AS3000G7。該產品憑借“以存代算”的技術創新,有效破解 KV Cache 重復計算帶來的算力和時延損耗難題,為大模型推理場景提供突破性解決方案,加速推動大模型在金融、科研等領域的規模化落地。PzE28資訊網——每日最新資訊28at.com

PzE28資訊網——每日最新資訊28at.com

大模型推理效能瓶頸:吞吐量和時延PzE28資訊網——每日最新資訊28at.com

當前人工智能大模型的應用已滲透千行百業,既推動著產業效能的跨越式提升,也深刻重構著生產生活的底層邏輯,成為驅動數字經濟發展與社會智能化升級的核心力量。隨著大模型應用的普及和相關技術的發展,各行各業對大模型應用的關注點逐漸從大模型的訓練轉到大模型的推理。據 IDC 數據顯示,智能算力規模在未來 5 年增長 1.7 倍,用于推理的工作負載將從 2023 年的 40% 上升到 2027 年的 70% 以上。因此,大模型推理將會成為未來大模型應用的焦點。然而,當前大模型推理仍然需要借助 GPU 服務器來實現,而 GPU 服務器,也是整個大模型落地中最昂貴的投資。因此,充分發揮 GPU 服務器的利用率來提升大模型推理效率是大模型的落地關鍵,推理效率的高低直接決定著大模型從“實驗室”到“生產線”的落地速度。PzE28資訊網——每日最新資訊28at.com

大模型推理效率面臨兩大核心瓶頸:吞吐量(Tokens / s)和時延。吞吐量是指系統在單位時間內能處理的 tokens 的數量,數值越高表明 LLM 服務資源利用率越高、系統成本越低。時延則是用戶接收每個 token 的平均耗時,其中首字時延(TTFT)是長文本對話場景中“實時交互體驗”的核心指標,直接影響用戶體驗。PzE28資訊網——每日最新資訊28at.com

大模型的推理包含兩個階段,第一個階段是預填充 (Prefilling) 階段。Prefilling 階段處理輸入,構建初始上下文并緩存成 KV Cache (key-value 鍵值對),緩存在 GPU 的 HBM 顯存里。第二個階段是解碼 (Decode) 階段,解碼階段則利用 Prefilling 階段生成的 KV Cache,迭代地生成輸出 Token,最終給出推理答案。PzE28資訊網——每日最新資訊28at.com

根據大數據統計分析,超過 76% 的對話都是多輪的,多輪對話會產生大量的 KV Cache,上一輪的對話產生的 KV Cache 也會作為下一輪推理的輸入基礎,為連續交互提供上下文支撐。但實際場景中,GPU HBM 顯存容量存在明顯限制,因此多輪對話中的 KV Cache 會被強制丟棄,在下一輪對話中需要消耗算力來重新計算。以 DeepSeek 70B 模型為例,其每 10 分鐘產生的 KV Cache 高達 25TB,但每張 GPU HBM 顯存只有幾十 GB,因此,在服務完一個請求后,需清空顯存以接納新請求,KV Cache 被強制丟棄,在后續對話中,原本可復用的 KV Cache 需要重新計算。這種重復計算直接時延增加(首字響應變慢),同時造成 GPU 算力空轉(重復執行相同計算),導致吞吐量下降,最終導致資源利用率降低。因此,高效管理 KV Cache 緩存成為提升推理效率的關鍵。PzE28資訊網——每日最新資訊28at.com

存儲產品托管 KV Cache,實現“以存代算”PzE28資訊網——每日最新資訊28at.com

浪潮存儲 AS3000G7 作為業內領先推理加速存儲,可存儲所有 KV Cache 及多輪對話結果。其創新架構通過將 KV Cache 從 GPU 寫入本機內存,再經高速網絡緩存至 AS3000G7,下輪對話時按需拉取緩存無需重新計算,徹底實現“以存代算”,顯著節省算力消耗并提升資源利用率。PzE28資訊網——每日最新資訊28at.com

PzE28資訊網——每日最新資訊28at.com

作為業內領先推理加速存儲產品,AS3000G7 以四大核心優勢重塑推理效率:PzE28資訊網——每日最新資訊28at.com

降低響應延遲:將歷史 Token 緩存至 AS3000G7 存儲層,下輪對話從 NVMe SSD 硬盤中拉取歷史 token 的 KV Cache,減少 GPU 重復計算帶來的資源消耗,TTFT 降低 90%;PzE28資訊網——每日最新資訊28at.com

承載更多并發:TTFT 在 400ms 以內的前提下,系統可支持的吞吐量(Token / s)可達原方案 5 倍,單位 GPU 資源可承載更多推理請求;PzE28資訊網——每日最新資訊28at.com

降低 GPU 功耗:TTFT 的降低與并發的提升,單 Token 平均功耗下降 60%,在承載同等規模 token 負載時,GPU 服務器整機功耗降低。PzE28資訊網——每日最新資訊28at.com

生態兼容適配:廣泛兼容國產與海外芯片的異構算力平臺,深度適配 vLLM 框架下的 deepseek 等主流大模型,優化推理體驗。PzE28資訊網——每日最新資訊28at.com

在某頭部客戶聯合測試中,采用 1 臺 GPU 服務器搭配 1 臺 AS3000G7 推理加速存儲的組合方案實現:PzE28資訊網——每日最新資訊28at.com

穩定支撐 500 + 并發對話,TTFT 降低 90%,響應速度大幅提升PzE28資訊網——每日最新資訊28at.com

同硬件配置下吞吐量(Tokens / s)提升 5 倍,在不增加 GPU 資源的情況下,實現更高并發的推理請求PzE28資訊網——每日最新資訊28at.com

單 token 功耗降低 70%,單位算力成本降低 60%,推理性價比提升PzE28資訊網——每日最新資訊28at.com

PzE28資訊網——每日最新資訊28at.com

隨著大模型推理需求的持續攀升,AS3000G7 的推出恰逢其時。其通過“以存代算”的技術創新突破 KV Cache 重計算瓶頸,為 AI 規模化應用筑牢存儲根基。未來,隨著多模態與實時交互場景的普及以及存儲與計算的協同優化,KV Cache“以存代算”將成為降本增效的核心競爭力,為智能時代的推理存儲構建新基準。PzE28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-26-174465-0.html引領大模型推理效率革命!浪潮存儲領先發布推理加速存儲 AS3000G7

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 80 億美元,甲骨文創始人埃里森之子收購派拉蒙獲批準

下一篇: 華為新款鴻蒙旗艦平板電腦正式開售:預裝 HarmonyOS 5,鴻蒙電腦應用登陸平板

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 武平县| 凤山县| 天气| 赣榆县| 鄂伦春自治旗| 沙坪坝区| 洪江市| 尚义县| 县级市| 泌阳县| 修水县| 南岸区| 温宿县| 镇宁| 静安区| 响水县| 青州市| 驻马店市| 孝义市| 洪泽县| 新沂市| 宜春市| 平原县| 长泰县| 新泰市| 三明市| 宕昌县| 新津县| 广水市| 呼玛县| 高雄县| 丁青县| 东安县| 昆山市| 贡嘎县| 苍南县| 从江县| 集安市| 汉阴县| 榆社县| 南丰县|