當前位置：首頁 > 科技 > 軟件

北大張牧涵團隊依托昇騰突破推理效率瓶頸大模型推理百萬 tokens 成本僅 1 元

來源：責編：時間：2025-07-29 10:21:18 26觀看

導讀在人工智能領域，大語言模型的訓練與推理成本一直是限制技術普及的關鍵因素之一。近日，北京大學人工智能研究院助理教授張牧涵團隊在鯤鵬昇騰科教創新卓越中心（簡稱“卓越中心”）提供的算力支持下，成功研發出一套高

在人工智能領域，大語言模型的訓練與推理成本一直是限制技術普及的關鍵因素之一。近日，北京大學人工智能研究院助理教授張牧涵團隊在鯤鵬昇騰科教創新卓越中心（簡稱“卓越中心”）提供的算力支持下，成功研發出一套高效的大模型訓練推理架構，實現了百萬 tokens 輸入成本低至 1 元，為產業提供了高效能、低成本的解決方案。

此研究成果包括三項關鍵技術創新。首先，目前廣泛使用的相對位置編碼存在較大的稀疏性，團隊通過將每個注意力頭中的位置信息和非位置信息分離，對位置編碼進行了低秩壓縮，僅使用 3% 的位置信息，即可維持原有表達能力。該方法通過優化昇騰硬件的 flash-attention 算子，使得注意力頭的參數得到更高效利用。

第二，非位置編碼信息在原始模型中通常處于被抑制狀態。通過將位置編碼與非位置編碼分離，非位置編碼得到了較大的壓縮空間。團隊采用了聯合 KV 的低秩壓縮方法，僅保留 12.5% 的 KV Cache 即可維持原始模型的能力。這一方法能夠有效利用昇騰硬件高效的計算能力，減輕訪存壓力，顯著提升推理效率。

最后，基于昇騰硬件在出色的并行計算能力，團隊實現的 Recurrent Decoding（RD）技術通過替換 LM-head 提升了訓練數據利用率并加速了推理。在訓練階段，RD 通過將解碼出的多個 tokens 與 target tokens 進行對比，實現了訓練數據的高效利用；在推理階段，結合投機推理顯著提高了 tokens 的采樣通過率，進而提升了推理速度。

這一成果得到了學術界的廣泛關注，不僅為科研提供了可復用的高效架構，也為 AI 大模型在企業中的應用大幅降低了成本。自去年 6 月成立以來，北京大學與華為在產業前沿課題的聯合攻關持續推進，本次成果驗證了昇騰算力平臺支撐尖端科研的技術實力。卓越中心將繼續深入開展大模型關鍵技術創新，為構建中國技術生態提供堅實支撐。

本文鏈接：http://www.www897cc.com/showinfo-26-173985-0.html北大張牧涵團隊依托昇騰突破推理效率瓶頸大模型推理百萬 tokens 成本僅 1 元

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：微算法科技（NASDAQ: MLGO）研究量子信息遞歸優化（QIRO）算法，拓展解決新思路

下一篇：浪潮 KaiwuDB 出席 2025 開放原子開源生態大會，開源社區項目挑戰賽正式發布

標簽：

熱門焦點

一加Ace2 Pro真機揭曉鈦空灰配色質感拉滿

終于，在經過了幾波預熱之后，一加Ace2 Pro的外觀真機圖在網上出現了。還是博主數碼閑聊站曝光的，這次的外觀設計還是延續了一加11的方案，只是細節上有了調整，例如新加入了鈦空灰
三言兩語說透設計模式的藝術-簡單工廠模式

一、寫在前面工廠模式是最常見的一種創建型設計模式，通常說的工廠模式指的是工廠方法模式，是使用頻率最高的工廠模式。簡單工廠模式又稱為靜態工廠方法模式，不屬于GoF 23種設計
十個可以手動編寫的 JavaScript 數組 API

JavaScript 中有很多API，使用得當，會很方便，省力不少。你知道它的原理嗎? 今天這篇文章，我們將對它們進行一次小總結。現在開始吧。1.forEach()forEach()用于遍歷數組接收一參
線程通訊的三種方法！通俗易懂

線程通信是指多個線程之間通過某種機制進行協調和交互，例如，線程等待和通知機制就是線程通訊的主要手段之一。在 Java 中，線程等待和通知的實現手段有以下幾種方式：Object 類下
一篇聊聊Go錯誤封裝機制

%w 是用于錯誤包裝（Error Wrapping）的格式化動詞。它是用于 fmt.Errorf 和 fmt.Sprintf 函數中的一個特殊格式化動詞，用于將一個錯誤（或其他可打印的值）包裝在一個新的錯誤中。使
在線圖片編輯器，支持PSD解析、AI摳圖等

自從我上次分享一個人開發仿造稿定設計的圖片編輯器到現在，不知不覺已過去一年時間了，期間我經歷了裁員失業、面試找工作碰壁，寒冬下一直沒有很好地履行計劃.....這些就放在日
微博大門常打開，迎接海外畫師漂洋東渡

作者:互聯網那些事“起猛了，我能看得懂日語了”。“為什么日本人說話我能聽懂？”“中文不像中文，日語不像日語，但是我竟然看懂了”…&hell
華為將推出盤古數字人大模型可幫助用戶12小時完成數字人生成

在今日舉行的2023年華為云數字文娛AI創新峰會上，華為云全球Marketing與銷售服務總裁石冀琳表示，華為云將在后續推出盤古數字人大模型，可幫助用戶12小
三星Galaxy Z Fold5今日亮相：厚度縮減但仍略顯厚重

據官方此前宣布，三星將于7月26日也就是今天在韓國首爾舉辦Unpacked活動，屆時將帶來帶來包括Galaxy Buds 3、Galaxy Watch 6、Galaxy Tab S9、Galaxy

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

北大張牧涵團隊依托昇騰突破推理效率瓶頸大模型推理百萬 tokens 成本僅 1 元

一加Ace2 Pro真機揭曉鈦空灰配色質感拉滿

三言兩語說透設計模式的藝術-簡單工廠模式

十個可以手動編寫的 JavaScript 數組 API

線程通訊的三種方法！通俗易懂

一篇聊聊Go錯誤封裝機制

在線圖片編輯器，支持PSD解析、AI摳圖等

微博大門常打開，迎接海外畫師漂洋東渡

華為將推出盤古數字人大模型可幫助用戶12小時完成數字人生成

三星Galaxy Z Fold5今日亮相：厚度縮減但仍略顯厚重

最新推薦

猜你喜歡

熱門推薦

相關資訊

北大張牧涵團隊依托昇騰突破推理效率瓶頸 大模型推理百萬 tokens 成本僅 1 元

最新推薦

猜你喜歡

熱門推薦

相關資訊

北大張牧涵團隊依托昇騰突破推理效率瓶頸大模型推理百萬 tokens 成本僅 1 元