當前位置：首頁 > 元宇宙 > AI

字節跳動推出 VAPO 框架：突破 AI 推理極限，Qwen2.5-32B 提分 12 倍超 Deepseek-R1

來源：責編：時間：2025-04-15 07:13:26 61觀看

導讀 4 月 12 日消息，字節跳動于 4 月 8 日發布博文，其 Seed 研究團隊推出 VAPO 強化學習訓練框架，目標提升大型語言模型在復雜、冗長任務中的推理能力?，F有挑戰在大型語言模型（LLM）的強化學習（RL）訓練中，價值導向方法（Val

4 月 12 日消息，字節跳動于 4 月 8 日發布博文，其 Seed 研究團隊推出 VAPO 強化學習訓練框架，目標提升大型語言模型在復雜、冗長任務中的推理能力。

現有挑戰

在大型語言模型（LLM）的強化學習（RL）訓練中，價值導向方法（Value-based reinforcement learning methods）因能精確追溯每個動作對后續回報的影響，展現出巨大潛力。然而，應用于長鏈式推理（CoT）任務時，價值模型面臨三大挑戰。

首先，價值模型初始化會引入偏差；其次，傳統方法難以適應復雜任務中的序列長度差異；最后，驗證任務中獎勵信號稀疏，優化過程面臨探索與利用的權衡，這些問題限制了價值導向方法的實際效果。

VAPO簡介

字節跳動最新推出的 VAPO 框架全稱為 Value Augmented Proximal Policy Optimizationd（增強價值的近端政策優化），基于 PPO 框架，通過三項創新技術應對上述挑戰。

首先，VAPO 模型構建了細致的價值訓練框架，增強模型對復雜任務的理解。其次，引入長度自適應廣義優勢估計（GAE）機制，能根據響應長度動態調整參數，優化長短序列的訓練效果。最后，VAPO 整合了多項先前研究技術，形成協同增效的系統。

在不依賴特定監督微調（SFT）數據的情況下，Qwen2.5-32B 模型通過VAPO優化后，在 AIME24 基準測試中將得分從 5 分提升至 60.4 分，超越 DeepSeek R1 的 47 分，超過此前SOTA方式 DAPO（50 分）10分，僅用 60% 的更新步驟即達成業界領先。

相較于傳統 Proximal Policy Optimization（PPO）算法，VAPO 改進了數學推理能力，訓練曲線更為平滑，優化過程更穩定。

測試顯示，歸因于其價值模型提供的細粒度信號，VAPO 在長序列任務中表現出色，得分增長更快。盡管后期訓練熵值降低可能限制探索，VAPO 通過平衡設計確保了穩定性和可重復性。

VAPO 的成功源于其綜合優化設計。消融研究驗證了七項技術的有效性：價值預訓練防止崩潰，解耦 GAE 支持長回答優化，自適應 GAE 平衡短長回答，剪裁策略鼓勵探索，詞級損失增加長回答權重，正例語言模型損失提升 6 分，分組采樣貢獻 5 分。

這些改進使 VAPO 在探索與利用間找到最佳平衡，顯著優于無價值導向的 GRPO 和 DAPO 方法。VAPO 不僅提升了數學推理能力，還為 LLM 在復雜推理任務中的應用提供了新方向。

本文鏈接：http://www.www897cc.com/showinfo-45-12244-0.html字節跳動推出 VAPO 框架：突破 AI 推理極限，Qwen2.5-32B 提分 12 倍超 Deepseek-R1

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：因用歐洲用戶數據訓練 Grok，馬斯克的 X 公司遭愛爾蘭調查

下一篇：數月 → 幾天：OpenAI 被曝縮水模型安全測試，AI 競賽埋下隱患

標簽：

熱門焦點

元宇宙里掀起回憶殺？這波虛擬懷舊營銷主打一個極限反差

來源：首席品牌官從被稱為“元宇宙元年”的2021年開始，幾乎所有品牌都在迫不及待地“入駐”元宇宙。而一提及品牌們的元宇宙玩法，相信多數人腦海里首先浮現
25萬虛擬er在“元宇宙”追星

“默嘰默嘰，我是默默醬，我是在真元宇宙也有頭有臉的人。”12月11日晚20：00，虛擬偶像@默默醬的首場個人元宇宙演唱會《以夢為馬，抵達繁星》在大有空間APP
字節、騰訊、網易鏖戰元宇宙背后，大廠究竟在爭奪什么？

正當互聯網商業躊躇不前，互聯網大廠為了在存量中的增長擠破頭皮之時，元宇宙的概念被資本點燃。先是Facebook更名Meta正式進軍元宇宙，然后字節跳動收購了一家VR硬
“元宇宙第一股”Roblox首份年報未達預期，摩根大通成為首家進入元宇宙的銀行

今日《元宇宙新鮮事》有：“元宇宙第一股”Roblox首份年報未達預期致盤后股價暴跌15.28%；YouTube宣布進軍區塊鏈和元宇宙；摩根大通成為首家進入元宇宙的銀行。【中
借VR產業東風，江西搶灘布局“元宇宙”

自2016年起就在VR上傾注了大量精力的江西省，迅速搭上了“元宇宙”。VR、AR等技術是通往元宇宙的關鍵接口，使人們可以在數字空間和物理空間自由穿梭。自2016年起
小眾有趣NFT藝術作品欣賞（1）

隨著NFT發展火熱，越來越多領域與NFT融合，NFT藝術在加密領域中占據了很大一部分。NFT藝術與傳統藝術有相似之處，也有完全不同的地方。NFT藝術與傳統藝術一樣，表現了
Snoop Dogg 計劃推出致力于數字媒體NFT的專業公司

雅痞哥不知道這人是誰還上新聞，問了助理，解釋，相當于美版劉歡的地位吧。Snoop Dogg 在 NFT 領域已經有一段時間了，尤其是在最近有消息稱人們在元宇宙中購買房地產
技術賦能，國內首家寵物元宇宙平臺“Pet Meta”開啟虛擬養寵新方式

作者:易明未來，Pet Meta數字寵物藏品將是鏈接全球數億愛寵人群與元宇宙世界獨一無二的身份象征。首家面向國內的寵物元宇宙平臺Pet Meta生長于“寵物經濟”快速
2022年元宇宙系列報告：UGC當道，XR帶來新交互體驗

UGC作為元宇宙的主要內容創作模式，已經越來越多的呈現于游戲、娛樂、社交、傳媒等方面，UGC模式勾勒了元宇宙的邊界，現今元宇宙UGC模式的主要呈現方式以元宇宙概念

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

字節跳動推出 VAPO 框架：突破 AI 推理極限，Qwen2.5-32B 提分 12 倍超 Deepseek-R1

元宇宙里掀起回憶殺？這波虛擬懷舊營銷主打一個極限反差

25萬虛擬er在“元宇宙”追星

字節、騰訊、網易鏖戰元宇宙背后，大廠究竟在爭奪什么？

“元宇宙第一股”Roblox首份年報未達預期，摩根大通成為首家進入元宇宙的銀行

借VR產業東風，江西搶灘布局“元宇宙”

小眾有趣NFT藝術作品欣賞（1）

Snoop Dogg 計劃推出致力于數字媒體NFT的專業公司

技術賦能，國內首家寵物元宇宙平臺“Pet Meta”開啟虛擬養寵新方式

2022年元宇宙系列報告：UGC當道，XR帶來新交互體驗

最新推薦

元宇宙步入暗夜

完美世界被元宇宙“拒之門外”

元宇宙時代NFT的價值衡量

2030年的元宇宙產業將會如何發展？

頭頂光環無數卻估值極低，以太坊這位&——quot;最強殺手&——quot;有望涅槃重生？

虛擬鄧麗君后，數字人賽道開啟3.0時代

猜你喜歡

熱門推薦

相關資訊

字節跳動推出 VAPO 框架：突破 AI 推理極限，Qwen2.5-32B 提分 12 倍超 Deepseek-R1

最新推薦

猜你喜歡

熱門推薦

相關資訊

字節跳動推出 VAPO 框架：突破 AI 推理極限，Qwen2.5-32B 提分 12 倍超 Deepseek-R1