當前位置：首頁 > 科技 > 軟件

引領大模型推理效率革命！浪潮存儲領先發布推理加速存儲 AS3000G7

來源：責編：時間：2025-07-31 09:55:49 45觀看

導讀 2025 年 7 月 25 日，浪潮存儲營銷總監張業興出席中國信息通信研究院主辦的 2025（第二屆）產融合作大會。會上，張業興發表題為《融存智用運籌新數據 —— 浪潮存儲金融解決方案和實踐》的主題演講，并代表浪潮存儲領

2025 年 7 月 25 日，浪潮存儲營銷總監張業興出席中國信息通信研究院主辦的 2025（第二屆）產融合作大會。會上，張業興發表題為《融存智用運籌新數據 —— 浪潮存儲金融解決方案和實踐》的主題演講，并代表浪潮存儲領先發布推理加速存儲 AS3000G7。該產品憑借“以存代算”的技術創新，有效破解 KV Cache 重復計算帶來的算力和時延損耗難題，為大模型推理場景提供突破性解決方案，加速推動大模型在金融、科研等領域的規模化落地。

大模型推理效能瓶頸：吞吐量和時延

當前人工智能大模型的應用已滲透千行百業，既推動著產業效能的跨越式提升，也深刻重構著生產生活的底層邏輯，成為驅動數字經濟發展與社會智能化升級的核心力量。隨著大模型應用的普及和相關技術的發展，各行各業對大模型應用的關注點逐漸從大模型的訓練轉到大模型的推理。據 IDC 數據顯示，智能算力規模在未來 5 年增長 1.7 倍，用于推理的工作負載將從 2023 年的 40% 上升到 2027 年的 70% 以上。因此，大模型推理將會成為未來大模型應用的焦點。然而，當前大模型推理仍然需要借助 GPU 服務器來實現，而 GPU 服務器，也是整個大模型落地中最昂貴的投資。因此，充分發揮 GPU 服務器的利用率來提升大模型推理效率是大模型的落地關鍵，推理效率的高低直接決定著大模型從“實驗室”到“生產線”的落地速度。

大模型推理效率面臨兩大核心瓶頸：吞吐量（Tokens / s）和時延。吞吐量是指系統在單位時間內能處理的 tokens 的數量，數值越高表明 LLM 服務資源利用率越高、系統成本越低。時延則是用戶接收每個 token 的平均耗時，其中首字時延（TTFT）是長文本對話場景中“實時交互體驗”的核心指標，直接影響用戶體驗。

大模型的推理包含兩個階段，第一個階段是預填充 (Prefilling) 階段。Prefilling 階段處理輸入，構建初始上下文并緩存成 KV Cache (key-value 鍵值對)，緩存在 GPU 的 HBM 顯存里。第二個階段是解碼 (Decode) 階段，解碼階段則利用 Prefilling 階段生成的 KV Cache，迭代地生成輸出 Token，最終給出推理答案。

根據大數據統計分析，超過 76% 的對話都是多輪的，多輪對話會產生大量的 KV Cache，上一輪的對話產生的 KV Cache 也會作為下一輪推理的輸入基礎，為連續交互提供上下文支撐。但實際場景中，GPU HBM 顯存容量存在明顯限制，因此多輪對話中的 KV Cache 會被強制丟棄，在下一輪對話中需要消耗算力來重新計算。以 DeepSeek 70B 模型為例，其每 10 分鐘產生的 KV Cache 高達 25TB，但每張 GPU HBM 顯存只有幾十 GB，因此，在服務完一個請求后，需清空顯存以接納新請求，KV Cache 被強制丟棄，在后續對話中，原本可復用的 KV Cache 需要重新計算。這種重復計算直接時延增加（首字響應變慢），同時造成 GPU 算力空轉（重復執行相同計算），導致吞吐量下降，最終導致資源利用率降低。因此，高效管理 KV Cache 緩存成為提升推理效率的關鍵。

存儲產品托管 KV Cache，實現“以存代算”

浪潮存儲 AS3000G7 作為業內領先推理加速存儲，可存儲所有 KV Cache 及多輪對話結果。其創新架構通過將 KV Cache 從 GPU 寫入本機內存，再經高速網絡緩存至 AS3000G7，下輪對話時按需拉取緩存無需重新計算，徹底實現“以存代算”，顯著節省算力消耗并提升資源利用率。

作為業內領先推理加速存儲產品，AS3000G7 以四大核心優勢重塑推理效率：

降低響應延遲：將歷史 Token 緩存至 AS3000G7 存儲層，下輪對話從 NVMe SSD 硬盤中拉取歷史 token 的 KV Cache，減少 GPU 重復計算帶來的資源消耗，TTFT 降低 90%；

承載更多并發：TTFT 在 400ms 以內的前提下，系統可支持的吞吐量（Token / s）可達原方案 5 倍，單位 GPU 資源可承載更多推理請求；

降低 GPU 功耗：TTFT 的降低與并發的提升，單 Token 平均功耗下降 60%，在承載同等規模 token 負載時，GPU 服務器整機功耗降低。

生態兼容適配：廣泛兼容國產與海外芯片的異構算力平臺，深度適配 vLLM 框架下的 deepseek 等主流大模型，優化推理體驗。

在某頭部客戶聯合測試中，采用 1 臺 GPU 服務器搭配 1 臺 AS3000G7 推理加速存儲的組合方案實現：

穩定支撐 500 + 并發對話，TTFT 降低 90%，響應速度大幅提升

同硬件配置下吞吐量（Tokens / s）提升 5 倍，在不增加 GPU 資源的情況下，實現更高并發的推理請求

單 token 功耗降低 70%，單位算力成本降低 60%，推理性價比提升

隨著大模型推理需求的持續攀升，AS3000G7 的推出恰逢其時。其通過“以存代算”的技術創新突破 KV Cache 重計算瓶頸，為 AI 規模化應用筑牢存儲根基。未來，隨著多模態與實時交互場景的普及以及存儲與計算的協同優化，KV Cache“以存代算”將成為降本增效的核心競爭力，為智能時代的推理存儲構建新基準。

本文鏈接：http://www.www897cc.com/showinfo-26-174465-0.html引領大模型推理效率革命！浪潮存儲領先發布推理加速存儲 AS3000G7

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： 80 億美元，甲骨文創始人埃里森之子收購派拉蒙獲批準

下一篇：華為新款鴻蒙旗艦平板電腦正式開售：預裝 HarmonyOS 5，鴻蒙電腦應用登陸平板

標簽：

熱門焦點

影音體驗是真的強簡單聊聊iQOO Pad

大公司的好處就是產品線豐富，非常細分化的東西也能給你做出來，例如早先我們看到了新的vivo Pad2，之后我們又在iQOO Neo8 Pro的發布會上看到了iQOO的首款平板產品iQOO Pad。雖
學習JavaScript的10個理由...

作者 | Simplilearn編譯 | 王瑞平當你決心學習一門語言的時候，很難選擇到底應該學習哪一門，常用的語言有Python、Java、JavaScript、C/CPP、PHP、Swift、C#、Ruby、Objective-
三萬字盤點 Spring 九大核心基礎功能

大家好，我是三友~~今天來跟大家聊一聊Spring的9大核心基礎功能。話不多說，先上目錄：圖片友情提示，本文過長，建議收藏，嘿嘿嘿！一、資源管理資源管理是Spring的一個核心的基礎功能，不
為什么你不應該使用Div作為可點擊元素

按鈕是為任何網絡應用程序提供交互性的最常見方式。但我們經常傾向于使用其他HTML元素，如 div span 等作為 clickable 元素。但通過這樣做，我們錯過了許多內置瀏覽器的功能。
猿輔導與新東方的兩種“歸途”

作者｜卓心月出品｜零態LT（ID：LingTai_LT）如何成為一家偉大企業？答案一定是對“勢”的把握，這其中最關鍵的當屬對企業戰略的制定，且能夠站在未來看現在，即使這其中的
iQOO 11S屏幕細節公布：首發三星2K E6全感屏安卓最好的直屏手機

日前iQOO手機官方宣布，新一代電競旗艦iQOO 11S將會在7月4日19:00正式與大家見面。隨著發布時間的日益臨近，官方關于該機的預熱也更加密集，截至目前已
3699元！iQOO Neo8 Pro頂配版今日首銷：1TB UFS 4.0同價位唯一

5月23日，iQOO推出了全新的iQOO Neo8系列，包含iQOO Neo8和iQOO Neo8 Pro兩個版本，其中標準版搭載高通驍龍8+，而Pro版更是首發搭載了聯發科天璣9200+旗艦
首發天璣9200+ iQOO Neo8系列發布首銷售價2299元起

2023年5月23日晚，iQOO Neo8系列正式發布。其中，Neo系列首款Pro之作——iQOO Neo8 Pro強悍登場，限時售價3099元起；價位段最強性能手機iQOO Neo8同期上市
OPPO K11采用全方位護眼屏：三大護眼能力減輕視覺疲勞

日前OPPO官方宣布，全新的OPPO K11將于7月25日正式發布，將主打旗艦影像，和同檔位競品相比，其最大的賣點就是將配備索尼IMX890主攝，堪稱是2000檔位影像表

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

引領大模型推理效率革命！浪潮存儲領先發布推理加速存儲 AS3000G7

影音體驗是真的強簡單聊聊iQOO Pad

學習JavaScript的10個理由...

三萬字盤點 Spring 九大核心基礎功能

為什么你不應該使用Div作為可點擊元素

猿輔導與新東方的兩種“歸途”

iQOO 11S屏幕細節公布：首發三星2K E6全感屏安卓最好的直屏手機

3699元！iQOO Neo8 Pro頂配版今日首銷：1TB UFS 4.0同價位唯一

首發天璣9200+ iQOO Neo8系列發布首銷售價2299元起

OPPO K11采用全方位護眼屏：三大護眼能力減輕視覺疲勞

最新推薦

猜你喜歡

熱門推薦

相關資訊