日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

上海交大研究LLM強化學習:Llama與Qwen差異及OctoThinker新突破

來源: 責編: 時間:2025-07-04 12:16:41 43觀看
導讀在人工智能領(lǐng)域,大型語言模型(LLM)正通過結(jié)合任務提示與強化學習(RL)技術(shù),在復雜推理任務上取得顯著進展。Deepseek-R1-Zero等模型直接將強化學習應用于基礎(chǔ)模型,展現(xiàn)出卓越的推理能力。然而,這一成功并未能在所有基礎(chǔ)模型系

在人工智能領(lǐng)域,大型語言模型(LLM)正通過結(jié)合任務提示與強化學習(RL)技術(shù),在復雜推理任務上取得顯著進展。Deepseek-R1-Zero等模型直接將強化學習應用于基礎(chǔ)模型,展現(xiàn)出卓越的推理能力。然而,這一成功并未能在所有基礎(chǔ)模型系列中輕松復制,尤其是在Llama系列模型上。Hmk28資訊網(wǎng)——每日最新資訊28at.com

OpenAI的GPT-o1、o3以及DeepSeek的R1等模型,在競賽級數(shù)學問題上通過大規(guī)模強化學習取得了重大突破,推動了對于小型模型(參數(shù)少于千億)強化學習能力的探索。但這些進展大多局限于Qwen模型系列,難以在Llama等模型上重現(xiàn)。預訓練流程的缺乏透明度,使得理解預訓練如何影響強化學習的擴展變得頗具挑戰(zhàn)性。一些非傳統(tǒng)研究發(fā)現(xiàn),一次性提示可以增強Qwen的推理能力,但對Llama模型效果有限。盡管OpenWebMath、MathPile等項目致力于構(gòu)建高質(zhì)量的數(shù)學預訓練語料庫,但其規(guī)模依然有限。Hmk28資訊網(wǎng)——每日最新資訊28at.com

上海交通大學的研究人員針對Qwen和Llama模型,深入探究了中期訓練策略對強化學習動態(tài)的影響。他們發(fā)現(xiàn),高質(zhì)量的數(shù)學語料庫,如MegaMath-Web-Pro,能夠同時提升基礎(chǔ)模型和強化學習的效果。使用問答式數(shù)據(jù),特別是包含長鏈式推理(Chain-of-Thought, CoT)的數(shù)據(jù),可以進一步增強強化學習的效果。然而,長CoT也會在強化學習訓練中引入冗長性和不穩(wěn)定性。研究還發(fā)現(xiàn),在中期訓練中應用擴展可以提升下游強化學習的性能。Hmk28資訊網(wǎng)——每日最新資訊28at.com

基于這些發(fā)現(xiàn),研究人員提出了一種名為“穩(wěn)定-衰減”的兩階段中期訓練策略。他們首先使用2000億個token訓練基礎(chǔ)模型,然后在三個以CoT為中心的分支上使用200億個token進行訓練。這一策略成功生成了具有強大強化學習兼容性的OctoThinker模型。Hmk28資訊網(wǎng)——每日最新資訊28at.com

在強化學習配置和基準評估方面,研究人員使用MATH8K數(shù)據(jù)集進行訓練提示,配置包括全局訓練批次大小128、每個查詢16個rollout響應以及PPO最小批次大小64。實驗在Llama-3.2-3B-Base和Qwen2.5-3B-Base模型上進行。在評估中,基礎(chǔ)語言模型采用少樣本提示,而強化學習調(diào)優(yōu)模型則在GSM8K、MATH500、OlympiadBench和AMC23等指標任務上采用零樣本提示。Hmk28資訊網(wǎng)——每日最新資訊28at.com

在強化學習訓練期間,Qwen模型的響應長度持續(xù)增加并保持在合理范圍內(nèi),而Llama模型則表現(xiàn)出異常行為,平均響應長度飆升至4096個token。評估結(jié)果顯示,強化學習調(diào)優(yōu)后的Qwen2.5-3B在各個基準測試中均有所提升,而Llama-3.2-3B的提升則微乎其微。Hmk28資訊網(wǎng)——每日最新資訊28at.com

OctoThinker模型在強化學習兼容性方面表現(xiàn)優(yōu)異。在13個數(shù)學基準測試中,每個OctoThinker分支都比原始Llama基礎(chǔ)模型提升了10%-20%,并且在所有規(guī)模的穩(wěn)定階段模型上都取得了持續(xù)提升。OctoThinker-Zero系列在強化學習擴展過程中展現(xiàn)出多樣化的思維行為,其中OctoThinker-Long變體表現(xiàn)尤為出色。在比較三個3B規(guī)模基礎(chǔ)模型時,OctoThinker-Long-3B的表現(xiàn)優(yōu)于原始Llama-3.2-3B模型,并與以強大推理能力和廣泛預訓練而聞名的Qwen2.5-3B模型達到相近的性能水平。混合分支和短分支的性能略低,尤其是在更具挑戰(zhàn)性的基準測試中。Hmk28資訊網(wǎng)——每日最新資訊28at.com

舉報 0收藏 0打賞 0評論 0  更多>同類資訊MIT新研究:AI寫作工具使用或致大腦活躍度下滑07-03SciArena平臺亮相:科研人員親測,大語言模型科學文獻任務表現(xiàn)大比拼07-03谷歌發(fā)布Gemini for Education:免費AI工具助力全球教育創(chuàng)新與公平07-03榮耀總裁方飛:蘋果入局折疊屏,是激勵也是新起點07-03OpenAI堅持英偉達與AMD,暫不全面采用谷歌TPU芯片07-03Crunchyroll新動畫字幕出錯,疑似AI生成引熱議,觀眾呼吁保證創(chuàng)作質(zhì)量07-03三星Galaxy Z Fold新機:7月9日震撼發(fā)布,16GB+1TB高配來襲現(xiàn)在的手游和應用不斷升級,對配置的要求越來越高,所以不少品牌推出自研芯片、性能引擎、算法等方面,進一步優(yōu)化性能,提升新機體驗。新機也被官方稱為三星超輕薄折疊旗艦,看來今年的新折疊屏不斷追求輕薄,甚至是與直板機…07-03榮耀Magic V5震撼發(fā)布:輕薄折疊旗艦,搭載6100mAh大電池與驍龍8至尊芯片榮耀Magic V5采用全新AI交互方式,以更輕薄的折疊旗艦形態(tài)與行業(yè)領(lǐng)先的AI智能體實力,釋放PC級生產(chǎn)力,開啟智能交互體驗的全新想象,用科技拓寬一小時的生命寬度,帶來一輩子的溫暖陪伴。榮耀正式宣布支持MC…07-03中國移動新動作:九天人工智能科技公司成立,注冊資本高達20億07-03榮耀Magic V5震撼發(fā)布:輕薄折疊旗艦,搭載6100mAh大電池與驍龍8至尊版07-03榮耀Magic V5深度評測:輕薄新紀錄,AI折疊屏新標桿在多設備聯(lián)動上,榮耀MagicV5還可以自家的大屏PC、智能手表、智能耳機等智能聯(lián)動,不僅支持手表解鎖手機功能以及一鍵鎖定手表,并支持雙向查找,AI體驗同步流轉(zhuǎn),在榮耀手表5 Ultra上,也可以直接喚醒…07-02榮耀Magic V5震撼發(fā)布:纖薄新紀錄,滿血配置售價8999元起7月2日,榮耀推出了新一代旗艦大折疊手機——榮耀Magic V5,這款手機不僅再創(chuàng)多項大折疊手機纖薄世界紀錄,還具有大折疊滿血配置,并將AI與手機深度融合,搭載更為智慧化的使用方式。在護眼方面,此前在榮耀直板…07-02榮耀Magic V5評測:輕薄新巔峰,全能AI折疊屏旗艦重塑標準在多設備聯(lián)動上,榮耀MagicV5還可以自家的大屏PC、智能手表、智能耳機等智能聯(lián)動,不僅支持手表解鎖手機功能以及一鍵鎖定手表,并支持雙向查找,AI體驗同步流轉(zhuǎn),在榮耀手表5 Ultra上,也可以直接喚醒…07-02榮耀Magic V5震撼登場:纖薄新紀錄,滿血配置,售價8999元起7月2日,榮耀推出了新一代旗艦大折疊手機——榮耀Magic V5,這款手機不僅再創(chuàng)多項大折疊手機纖薄世界紀錄,還具有大折疊滿血配置,并將AI與手機深度融合,搭載更為智慧化的使用方式。在護眼方面,此前在榮耀直板…07-02榮耀Magic V5深度評測:輕薄新標桿,AI折疊屏的全面進化07-02點擊查看更多 +全站最新2025云手機市場風向:蜂窩云手機以高性價比全場景方案領(lǐng)跑2025云手機市場風向:蜂窩云手機以高性價比全場景方案領(lǐng)跑2025年云手機推薦:五大品牌性能比拼,性價比之選揭曉2025年云手機推薦:五大品牌性能比拼,性價比之選揭曉宇宙信使:揭秘玻璃隕石的奧秘與魅力宇宙信使:揭秘玻璃隕石的奧秘與魅力2025上半年機票均價740元,暑運旺季來臨價格上揚至839元2025上半年機票均價740元,暑運旺季來臨價格上揚至839元美波音737客機飛行中襟翼掉落 疑似墜入居民區(qū)車道美波音737客機飛行中襟翼掉落 疑似墜入居民區(qū)車道美波音737客機飛行中襟翼掉落 疑似墜入居民區(qū)車道美波音737客機飛行中襟翼掉落 疑似墜入居民區(qū)車道熱門內(nèi)容
  • 高考志愿填報熱潮中,夸克“深度搜索”成考生新寵,人均使用4次尋建議
  • 馬斯克宣布Grok 4大模型即將面世,或?qū)榫幊檀蛟?/li>
  • 高考志愿填報熱潮下,夸克“深度搜索”助力考生,人均使用達4次
  • 中國知網(wǎng)CNKI AI:重塑知識服務新生態(tài),四大核心力引領(lǐng)未來
  • 蘋果AI「Apple Intelligence」國行版,終于要來了嗎?
  • QQ瀏覽器AI高考通新上線:智能生成高考志愿報告,助你科學填報!
  • 火山引擎PromptPilot:一鍵優(yōu)化指令,解鎖AI大模型新效能
  • 阿里領(lǐng)投硅基流動,清華系A(chǔ)I創(chuàng)企再獲數(shù)億融資,DeepSeek流量爆棚后新動作?
  • 夸克高考志愿大模型上線,讓每個考生擁有自己的AI志愿填報顧問!
  • 字節(jié)跳動火山引擎發(fā)布豆包1.6與Seedance1.0,AI技術(shù)再升級成本大降
  • 優(yōu)志愿鴻蒙版上線,AI智能填報高考志愿,科學規(guī)劃升學新路徑
  • 英偉達攬才:清華“天才少年”朱邦華攜手焦劍濤加盟
  • 淘天集團RecGPT大模型上線,電商推薦迎來個性化新升級
  • 斯坦福評測:DeepSeek R1醫(yī)療AI大放異彩,成臨床場景新冠軍
  • 《Artificial》今夏開機,揭秘OpenAI 2023年CEO罷免又復職風波
本欄最新三星Galaxy Z Fold新機:7月9日震撼發(fā)布,16GB+1TB高配來襲三星Galaxy Z Fold新機:7月9日震撼發(fā)布,16GB+1TB高配來襲榮耀Magic V5震撼發(fā)布:輕薄折疊旗艦,搭載6100mAh大電池與驍龍8至尊芯片榮耀Magic V5震撼發(fā)布:輕薄折疊旗艦,搭載6100mAh大電池與驍龍8至尊芯片中國移動新動作:九天人工智能科技公司成立,注冊資本高達20億中國移動新動作:九天人工智能科技公司成立,注冊資本高達20億榮耀Magic V5震撼發(fā)布:輕薄折疊旗艦,搭載6100mAh大電池與驍龍8至尊版榮耀Magic V5震撼發(fā)布:輕薄折疊旗艦,搭載6100mAh大電池與驍龍8至尊版榮耀Magic V5深度評測:輕薄新紀錄,AI折疊屏新標桿榮耀Magic V5深度評測:輕薄新紀錄,AI折疊屏新標桿榮耀Magic V5震撼發(fā)布:纖薄新紀錄,滿血配置售價8999元起榮耀Magic V5震撼發(fā)布:纖薄新紀錄,滿血配置售價8999元起

本文鏈接:http://www.www897cc.com/showinfo-45-14352-0.html上海交大研究LLM強化學習:Llama與Qwen差異及OctoThinker新突破

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 榮耀Magic V5震撼發(fā)布:續(xù)航與輕薄雙贏,友商折疊屏面臨新挑戰(zhàn)

下一篇: MIT新研究:AI寫作工具使用或致大腦活躍度下滑

標簽:
  • 熱門焦點
  • 元宇宙里賣酸奶,好炸裂的操作!

    作者 | 李東陽 來源 | 首席營銷官有沒有發(fā)現(xiàn),當下的熱搜出現(xiàn)一個有意思的現(xiàn)象,那就是“情懷”不知不覺成為了主流,爺青回話題討論性非常高。前有名偵探柯南和優(yōu)衣庫
  • 保時捷推出虛擬超跑,車企元宇宙營銷這么香?

    保時捷又出超跑了,不過這次不是在現(xiàn)實世界,而是在虛擬世界。這款Vision Gran Turismo概念車,由保時捷和日本視頻游戲開發(fā)工作室Polyphony Digital聯(lián)合打造,將于202
  • 【量子位】虛擬數(shù)字人深度產(chǎn)業(yè)報告 | 元宇宙Meta洞見

    虛擬數(shù)字人行業(yè)未來的主要驅(qū)動力包括:用戶代際變化,新一代消費者對內(nèi)容消費和虛擬世界更為渴求;虛擬數(shù)字人相關(guān)技術(shù)門檻相對降低,成本有所回落;資本熱度上升,受Metav
  • 吸金31億美元,誰在催火2021年的鏈游?

    2021年究竟發(fā)生了什么,才使得鏈游領(lǐng)域在這年一飛沖天?作者:廖羽2022年2月16日,Invest Game發(fā)布《2021年全球游戲投資報告》,報告顯示,游戲行業(yè)的投資重點正在向區(qū)塊
  • NFT:新騙局的狩獵場

    騙局的自動化需要更好的防御,從數(shù)字身份開始。前幾天我在OpenSea上購買了一個NFT,是才華橫溢的藝術(shù)家海倫·福爾摩斯 (Helen Holmes) 的漫畫,來自她的 "原作 "收
  • Meta 呼吁行業(yè)合作建立元宇宙網(wǎng)絡基礎(chǔ)設施

    Facebook 的母公司 Meta呼吁,建立必要的全球合作的基礎(chǔ)設施,以支持其蓬勃發(fā)展的元宇宙野心。“元宇宙”成為 2021 年的主要流行語之一,這在很大程度上是由 Facebo
  • MR——元宇宙平臺的下一代入口

    作為“元宇宙”的領(lǐng)頭羊,Meta的一舉一動都受到業(yè)內(nèi)的高度關(guān)注。華爾街見聞提及,2月17日周四,F(xiàn)acebook母公司Meta在透露,其混合現(xiàn)實技術(shù)(MR)將在幾年后實現(xiàn),讓人們對元
  • 2022年元宇宙系列報告:UGC當?shù)溃琗R帶來新交互體驗

    UGC作為元宇宙的主要內(nèi)容創(chuàng)作模式,已經(jīng)越來越多的呈現(xiàn)于游戲、娛樂、社交、傳媒等方面,UGC模式勾勒了元宇宙的邊界,現(xiàn)今元宇宙UGC模式的主要呈現(xiàn)方式以元宇宙概念
  • 虛擬人行業(yè)研究報告

    最早的虛擬人出現(xiàn)于 20 世紀 80 年代,受限于技術(shù),當時的虛擬人制作以手繪為主。21 世紀初,隨著動捕、渲染等技術(shù)的逐步發(fā)展,虛擬人相關(guān)技術(shù)開始在影視領(lǐng)域逐漸普及
Top 主站蜘蛛池模板: 南汇区| 遵化市| 雷山县| 宜州市| 廊坊市| 平利县| 合江县| 龙江县| 嵩明县| 奎屯市| 乐安县| 得荣县| 遂昌县| 潮州市| 广宗县| 涪陵区| 娱乐| 沧源| 公主岭市| 横峰县| 济源市| 紫金县| 文登市| 扬中市| 永泰县| 嘉义市| 仲巴县| 宜昌市| 桦南县| 南开区| 易门县| 新巴尔虎右旗| 元阳县| 勃利县| 新郑市| 台湾省| 弥渡县| 威宁| 杨浦区| 新昌县| 罗平县|