2025 年 7 月 25 日,浪潮存儲營銷總監張業興出席中國信息通信研究院主辦的 2025(第二屆)產融合作大會。會上,張業興發表題為《融存智用運籌新數據 —— 浪潮存儲金融解決方案和實踐》的主題演講,并代表浪潮存儲領先發布推理加速存儲 AS3000G7。該產品憑借“以存代算”的技術創新,有效破解 KV Cache 重復計算帶來的算力和時延損耗難題,為大模型推理場景提供突破性解決方案,加速推動大模型在金融、科研等領域的規模化落地。
大模型推理效能瓶頸:吞吐量和時延
當前人工智能大模型的應用已滲透千行百業,既推動著產業效能的跨越式提升,也深刻重構著生產生活的底層邏輯,成為驅動數字經濟發展與社會智能化升級的核心力量。隨著大模型應用的普及和相關技術的發展,各行各業對大模型應用的關注點逐漸從大模型的訓練轉到大模型的推理。據 IDC 數據顯示,智能算力規模在未來 5 年增長 1.7 倍,用于推理的工作負載將從 2023 年的 40% 上升到 2027 年的 70% 以上。因此,大模型推理將會成為未來大模型應用的焦點。然而,當前大模型推理仍然需要借助 GPU 服務器來實現,而 GPU 服務器,也是整個大模型落地中最昂貴的投資。因此,充分發揮 GPU 服務器的利用率來提升大模型推理效率是大模型的落地關鍵,推理效率的高低直接決定著大模型從“實驗室”到“生產線”的落地速度。
大模型推理效率面臨兩大核心瓶頸:吞吐量(Tokens / s)和時延。吞吐量是指系統在單位時間內能處理的 tokens 的數量,數值越高表明 LLM 服務資源利用率越高、系統成本越低。時延則是用戶接收每個 token 的平均耗時,其中首字時延(TTFT)是長文本對話場景中“實時交互體驗”的核心指標,直接影響用戶體驗。
大模型的推理包含兩個階段,第一個階段是預填充 (Prefilling) 階段。Prefilling 階段處理輸入,構建初始上下文并緩存成 KV Cache (key-value 鍵值對),緩存在 GPU 的 HBM 顯存里。第二個階段是解碼 (Decode) 階段,解碼階段則利用 Prefilling 階段生成的 KV Cache,迭代地生成輸出 Token,最終給出推理答案。
根據大數據統計分析,超過 76% 的對話都是多輪的,多輪對話會產生大量的 KV Cache,上一輪的對話產生的 KV Cache 也會作為下一輪推理的輸入基礎,為連續交互提供上下文支撐。但實際場景中,GPU HBM 顯存容量存在明顯限制,因此多輪對話中的 KV Cache 會被強制丟棄,在下一輪對話中需要消耗算力來重新計算。以 DeepSeek 70B 模型為例,其每 10 分鐘產生的 KV Cache 高達 25TB,但每張 GPU HBM 顯存只有幾十 GB,因此,在服務完一個請求后,需清空顯存以接納新請求,KV Cache 被強制丟棄,在后續對話中,原本可復用的 KV Cache 需要重新計算。這種重復計算直接時延增加(首字響應變慢),同時造成 GPU 算力空轉(重復執行相同計算),導致吞吐量下降,最終導致資源利用率降低。因此,高效管理 KV Cache 緩存成為提升推理效率的關鍵。
存儲產品托管 KV Cache,實現“以存代算”
浪潮存儲 AS3000G7 作為業內領先推理加速存儲,可存儲所有 KV Cache 及多輪對話結果。其創新架構通過將 KV Cache 從 GPU 寫入本機內存,再經高速網絡緩存至 AS3000G7,下輪對話時按需拉取緩存無需重新計算,徹底實現“以存代算”,顯著節省算力消耗并提升資源利用率。
作為業內領先推理加速存儲產品,AS3000G7 以四大核心優勢重塑推理效率:
降低響應延遲:將歷史 Token 緩存至 AS3000G7 存儲層,下輪對話從 NVMe SSD 硬盤中拉取歷史 token 的 KV Cache,減少 GPU 重復計算帶來的資源消耗,TTFT 降低 90%;
承載更多并發:TTFT 在 400ms 以內的前提下,系統可支持的吞吐量(Token / s)可達原方案 5 倍,單位 GPU 資源可承載更多推理請求;
降低 GPU 功耗:TTFT 的降低與并發的提升,單 Token 平均功耗下降 60%,在承載同等規模 token 負載時,GPU 服務器整機功耗降低。
生態兼容適配:廣泛兼容國產與海外芯片的異構算力平臺,深度適配 vLLM 框架下的 deepseek 等主流大模型,優化推理體驗。
在某頭部客戶聯合測試中,采用 1 臺 GPU 服務器搭配 1 臺 AS3000G7 推理加速存儲的組合方案實現:
穩定支撐 500 + 并發對話,TTFT 降低 90%,響應速度大幅提升
同硬件配置下吞吐量(Tokens / s)提升 5 倍,在不增加 GPU 資源的情況下,實現更高并發的推理請求
單 token 功耗降低 70%,單位算力成本降低 60%,推理性價比提升
隨著大模型推理需求的持續攀升,AS3000G7 的推出恰逢其時。其通過“以存代算”的技術創新突破 KV Cache 重計算瓶頸,為 AI 規模化應用筑牢存儲根基。未來,隨著多模態與實時交互場景的普及以及存儲與計算的協同優化,KV Cache“以存代算”將成為降本增效的核心競爭力,為智能時代的推理存儲構建新基準。
本文鏈接:http://www.www897cc.com/showinfo-26-174465-0.html引領大模型推理效率革命!浪潮存儲領先發布推理加速存儲 AS3000G7
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com