當前位置：首頁 > 元宇宙 > AI

上海交大研究LLM強化學習：Llama與Qwen差異及OctoThinker新突破

來源：責編：時間：2025-07-04 12:16:41 43觀看

導讀在人工智能領(lǐng)域，大型語言模型（LLM）正通過結(jié)合任務提示與強化學習（RL）技術(shù)，在復雜推理任務上取得顯著進展。Deepseek-R1-Zero等模型直接將強化學習應用于基礎(chǔ)模型，展現(xiàn)出卓越的推理能力。然而，這一成功并未能在所有基礎(chǔ)模型系

在人工智能領(lǐng)域，大型語言模型（LLM）正通過結(jié)合任務提示與強化學習（RL）技術(shù)，在復雜推理任務上取得顯著進展。Deepseek-R1-Zero等模型直接將強化學習應用于基礎(chǔ)模型，展現(xiàn)出卓越的推理能力。然而，這一成功并未能在所有基礎(chǔ)模型系列中輕松復制，尤其是在Llama系列模型上。

OpenAI的GPT-o1、o3以及DeepSeek的R1等模型，在競賽級數(shù)學問題上通過大規(guī)模強化學習取得了重大突破，推動了對于小型模型（參數(shù)少于千億）強化學習能力的探索。但這些進展大多局限于Qwen模型系列，難以在Llama等模型上重現(xiàn)。預訓練流程的缺乏透明度，使得理解預訓練如何影響強化學習的擴展變得頗具挑戰(zhàn)性。一些非傳統(tǒng)研究發(fā)現(xiàn)，一次性提示可以增強Qwen的推理能力，但對Llama模型效果有限。盡管OpenWebMath、MathPile等項目致力于構(gòu)建高質(zhì)量的數(shù)學預訓練語料庫，但其規(guī)模依然有限。

上海交通大學的研究人員針對Qwen和Llama模型，深入探究了中期訓練策略對強化學習動態(tài)的影響。他們發(fā)現(xiàn)，高質(zhì)量的數(shù)學語料庫，如MegaMath-Web-Pro，能夠同時提升基礎(chǔ)模型和強化學習的效果。使用問答式數(shù)據(jù)，特別是包含長鏈式推理（Chain-of-Thought, CoT）的數(shù)據(jù)，可以進一步增強強化學習的效果。然而，長CoT也會在強化學習訓練中引入冗長性和不穩(wěn)定性。研究還發(fā)現(xiàn)，在中期訓練中應用擴展可以提升下游強化學習的性能。

基于這些發(fā)現(xiàn)，研究人員提出了一種名為“穩(wěn)定-衰減”的兩階段中期訓練策略。他們首先使用2000億個token訓練基礎(chǔ)模型，然后在三個以CoT為中心的分支上使用200億個token進行訓練。這一策略成功生成了具有強大強化學習兼容性的OctoThinker模型。

在強化學習配置和基準評估方面，研究人員使用MATH8K數(shù)據(jù)集進行訓練提示，配置包括全局訓練批次大小128、每個查詢16個rollout響應以及PPO最小批次大小64。實驗在Llama-3.2-3B-Base和Qwen2.5-3B-Base模型上進行。在評估中，基礎(chǔ)語言模型采用少樣本提示，而強化學習調(diào)優(yōu)模型則在GSM8K、MATH500、OlympiadBench和AMC23等指標任務上采用零樣本提示。

在強化學習訓練期間，Qwen模型的響應長度持續(xù)增加并保持在合理范圍內(nèi)，而Llama模型則表現(xiàn)出異常行為，平均響應長度飆升至4096個token。評估結(jié)果顯示，強化學習調(diào)優(yōu)后的Qwen2.5-3B在各個基準測試中均有所提升，而Llama-3.2-3B的提升則微乎其微。

OctoThinker模型在強化學習兼容性方面表現(xiàn)優(yōu)異。在13個數(shù)學基準測試中，每個OctoThinker分支都比原始Llama基礎(chǔ)模型提升了10%-20%，并且在所有規(guī)模的穩(wěn)定階段模型上都取得了持續(xù)提升。OctoThinker-Zero系列在強化學習擴展過程中展現(xiàn)出多樣化的思維行為，其中OctoThinker-Long變體表現(xiàn)尤為出色。在比較三個3B規(guī)模基礎(chǔ)模型時，OctoThinker-Long-3B的表現(xiàn)優(yōu)于原始Llama-3.2-3B模型，并與以強大推理能力和廣泛預訓練而聞名的Qwen2.5-3B模型達到相近的性能水平。混合分支和短分支的性能略低，尤其是在更具挑戰(zhàn)性的基準測試中。

舉報 0收藏 0打賞 0評論 0 更多>同類資訊MIT新研究：AI寫作工具使用或致大腦活躍度下滑07-03SciArena平臺亮相：科研人員親測，大語言模型科學文獻任務表現(xiàn)大比拼07-03谷歌發(fā)布Gemini for Education：免費AI工具助力全球教育創(chuàng)新與公平07-03榮耀總裁方飛：蘋果入局折疊屏，是激勵也是新起點07-03OpenAI堅持英偉達與AMD，暫不全面采用谷歌TPU芯片07-03Crunchyroll新動畫字幕出錯，疑似AI生成引熱議，觀眾呼吁保證創(chuàng)作質(zhì)量07-03

三星Galaxy Z Fold新機：7月9日震撼發(fā)布，16GB+1TB高配來襲現(xiàn)在的手游和應用不斷升級，對配置的要求越來越高，所以不少品牌推出自研芯片、性能引擎、算法等方面，進一步優(yōu)化性能，提升新機體驗。新機也被官方稱為三星超輕薄折疊旗艦，看來今年的新折疊屏不斷追求輕薄，甚至是與直板機…07-03

榮耀Magic V5震撼發(fā)布：輕薄折疊旗艦，搭載6100mAh大電池與驍龍8至尊芯片榮耀Magic V5采用全新AI交互方式，以更輕薄的折疊旗艦形態(tài)與行業(yè)領(lǐng)先的AI智能體實力，釋放PC級生產(chǎn)力，開啟智能交互體驗的全新想象，用科技拓寬一小時的生命寬度，帶來一輩子的溫暖陪伴。榮耀正式宣布支持MC…07-03

中國移動新動作：九天人工智能科技公司成立，注冊資本高達20億07-03

榮耀Magic V5震撼發(fā)布：輕薄折疊旗艦，搭載6100mAh大電池與驍龍8至尊版07-03

榮耀Magic V5深度評測：輕薄新紀錄，AI折疊屏新標桿在多設備聯(lián)動上，榮耀MagicV5還可以自家的大屏PC、智能手表、智能耳機等智能聯(lián)動，不僅支持手表解鎖手機功能以及一鍵鎖定手表，并支持雙向查找，AI體驗同步流轉(zhuǎn)，在榮耀手表5 Ultra上，也可以直接喚醒…07-02

榮耀Magic V5震撼發(fā)布：纖薄新紀錄，滿血配置售價8999元起7月2日，榮耀推出了新一代旗艦大折疊手機——榮耀Magic V5，這款手機不僅再創(chuàng)多項大折疊手機纖薄世界紀錄，還具有大折疊滿血配置，并將AI與手機深度融合，搭載更為智慧化的使用方式。在護眼方面，此前在榮耀直板…07-02

榮耀Magic V5評測：輕薄新巔峰，全能AI折疊屏旗艦重塑標準在多設備聯(lián)動上，榮耀MagicV5還可以自家的大屏PC、智能手表、智能耳機等智能聯(lián)動，不僅支持手表解鎖手機功能以及一鍵鎖定手表，并支持雙向查找，AI體驗同步流轉(zhuǎn)，在榮耀手表5 Ultra上，也可以直接喚醒…07-02

榮耀Magic V5震撼登場：纖薄新紀錄，滿血配置，售價8999元起7月2日，榮耀推出了新一代旗艦大折疊手機——榮耀Magic V5，這款手機不僅再創(chuàng)多項大折疊手機纖薄世界紀錄，還具有大折疊滿血配置，并將AI與手機深度融合，搭載更為智慧化的使用方式。在護眼方面，此前在榮耀直板…07-02

榮耀Magic V5深度評測：輕薄新標桿，AI折疊屏的全面進化07-02點擊查看更多 +全站最新

2025云手機市場風向：蜂窩云手機以高性價比全場景方案領(lǐng)跑

2025年云手機推薦：五大品牌性能比拼，性價比之選揭曉

宇宙信使：揭秘玻璃隕石的奧秘與魅力

2025上半年機票均價740元，暑運旺季來臨價格上揚至839元美波音737客機飛行中襟翼掉落疑似墜入居民區(qū)車道

美波音737客機飛行中襟翼掉落疑似墜入居民區(qū)車道美波音737客機飛行中襟翼掉落疑似墜入居民區(qū)車道

美波音737客機飛行中襟翼掉落疑似墜入居民區(qū)車道熱門內(nèi)容

高考志愿填報熱潮中，夸克“深度搜索”成考生新寵，人均使用4次尋建議
馬斯克宣布Grok 4大模型即將面世，或?qū)榫幊檀蛟?/li>
高考志愿填報熱潮下，夸克“深度搜索”助力考生，人均使用達4次
中國知網(wǎng)CNKI AI：重塑知識服務新生態(tài)，四大核心力引領(lǐng)未來
蘋果AI「Apple Intelligence」國行版，終于要來了嗎？
QQ瀏覽器AI高考通新上線：智能生成高考志愿報告，助你科學填報！
火山引擎PromptPilot：一鍵優(yōu)化指令，解鎖AI大模型新效能
阿里領(lǐng)投硅基流動，清華系A(chǔ)I創(chuàng)企再獲數(shù)億融資，DeepSeek流量爆棚后新動作？
夸克高考志愿大模型上線，讓每個考生擁有自己的AI志愿填報顧問！
字節(jié)跳動火山引擎發(fā)布豆包1.6與Seedance1.0，AI技術(shù)再升級成本大降
優(yōu)志愿鴻蒙版上線，AI智能填報高考志愿，科學規(guī)劃升學新路徑
英偉達攬才：清華“天才少年”朱邦華攜手焦劍濤加盟
淘天集團RecGPT大模型上線，電商推薦迎來個性化新升級
斯坦福評測：DeepSeek R1醫(yī)療AI大放異彩，成臨床場景新冠軍
《Artificial》今夏開機，揭秘OpenAI 2023年CEO罷免又復職風波

本欄最新

三星Galaxy Z Fold新機：7月9日震撼發(fā)布，16GB+1TB高配來襲

榮耀Magic V5震撼發(fā)布：輕薄折疊旗艦，搭載6100mAh大電池與驍龍8至尊芯片

中國移動新動作：九天人工智能科技公司成立，注冊資本高達20億

榮耀Magic V5震撼發(fā)布：輕薄折疊旗艦，搭載6100mAh大電池與驍龍8至尊版

榮耀Magic V5深度評測：輕薄新紀錄，AI折疊屏新標桿

榮耀Magic V5震撼發(fā)布：纖薄新紀錄，滿血配置售價8999元起

本文鏈接：http://www.www897cc.com/showinfo-45-14352-0.html上海交大研究LLM強化學習：Llama與Qwen差異及OctoThinker新突破

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：榮耀Magic V5震撼發(fā)布：續(xù)航與輕薄雙贏，友商折疊屏面臨新挑戰(zhàn)

下一篇： MIT新研究：AI寫作工具使用或致大腦活躍度下滑

標簽：

熱門焦點

元宇宙里賣酸奶，好炸裂的操作！

作者 | 李東陽來源 | 首席營銷官有沒有發(fā)現(xiàn)，當下的熱搜出現(xiàn)一個有意思的現(xiàn)象，那就是“情懷”不知不覺成為了主流，爺青回話題討論性非常高。前有名偵探柯南和優(yōu)衣庫
保時捷推出虛擬超跑，車企元宇宙營銷這么香？

保時捷又出超跑了，不過這次不是在現(xiàn)實世界，而是在虛擬世界。這款Vision Gran Turismo概念車，由保時捷和日本視頻游戲開發(fā)工作室Polyphony Digital聯(lián)合打造，將于202
【量子位】虛擬數(shù)字人深度產(chǎn)業(yè)報告 | 元宇宙Meta洞見

虛擬數(shù)字人行業(yè)未來的主要驅(qū)動力包括：用戶代際變化，新一代消費者對內(nèi)容消費和虛擬世界更為渴求；虛擬數(shù)字人相關(guān)技術(shù)門檻相對降低，成本有所回落；資本熱度上升，受Metav
吸金31億美元，誰在催火2021年的鏈游？

2021年究竟發(fā)生了什么，才使得鏈游領(lǐng)域在這年一飛沖天？作者：廖羽2022年2月16日，Invest Game發(fā)布《2021年全球游戲投資報告》，報告顯示，游戲行業(yè)的投資重點正在向區(qū)塊
NFT：新騙局的狩獵場

騙局的自動化需要更好的防御，從數(shù)字身份開始。前幾天我在OpenSea上購買了一個NFT，是才華橫溢的藝術(shù)家海倫·福爾摩斯 (Helen Holmes) 的漫畫，來自她的 "原作 "收
Meta 呼吁行業(yè)合作建立元宇宙網(wǎng)絡基礎(chǔ)設施

Facebook 的母公司 Meta呼吁，建立必要的全球合作的基礎(chǔ)設施，以支持其蓬勃發(fā)展的元宇宙野心。“元宇宙”成為 2021 年的主要流行語之一，這在很大程度上是由 Facebo
MR——元宇宙平臺的下一代入口

作為“元宇宙”的領(lǐng)頭羊，Meta的一舉一動都受到業(yè)內(nèi)的高度關(guān)注。華爾街見聞提及，2月17日周四，F(xiàn)acebook母公司Meta在透露，其混合現(xiàn)實技術(shù)（MR）將在幾年后實現(xiàn)，讓人們對元
2022年元宇宙系列報告：UGC當?shù)溃琗R帶來新交互體驗

UGC作為元宇宙的主要內(nèi)容創(chuàng)作模式，已經(jīng)越來越多的呈現(xiàn)于游戲、娛樂、社交、傳媒等方面，UGC模式勾勒了元宇宙的邊界，現(xiàn)今元宇宙UGC模式的主要呈現(xiàn)方式以元宇宙概念
虛擬人行業(yè)研究報告

最早的虛擬人出現(xiàn)于 20 世紀 80 年代，受限于技術(shù)，當時的虛擬人制作以手繪為主。21 世紀初，隨著動捕、渲染等技術(shù)的逐步發(fā)展，虛擬人相關(guān)技術(shù)開始在影視領(lǐng)域逐漸普及

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

上海交大研究LLM強化學習：Llama與Qwen差異及OctoThinker新突破

元宇宙里賣酸奶，好炸裂的操作！

保時捷推出虛擬超跑，車企元宇宙營銷這么香？

【量子位】虛擬數(shù)字人深度產(chǎn)業(yè)報告 | 元宇宙Meta洞見

吸金31億美元，誰在催火2021年的鏈游？

NFT：新騙局的狩獵場

Meta 呼吁行業(yè)合作建立元宇宙網(wǎng)絡基礎(chǔ)設施

MR——元宇宙平臺的下一代入口

2022年元宇宙系列報告：UGC當?shù)溃琗R帶來新交互體驗

虛擬人行業(yè)研究報告

最新推薦

數(shù)字虛擬人23年最新變化！

網(wǎng)易音樂、理想申請元宇宙商標被駁回，“啫喱”暫停新用戶進入

“啫喱”超越微信登頂：首款“元宇宙社交App”會曇花一現(xiàn)嗎？

中國銀保監(jiān)管委提示：謹慎投資，勿做接盤俠

Snoop Dogg 計劃推出致力于數(shù)字媒體NFT的專業(yè)公司

Meta 呼吁行業(yè)合作建立元宇宙網(wǎng)絡基礎(chǔ)設施

猜你喜歡

熱門推薦

相關(guān)資訊