日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

英偉達推出 ProRL 方法:強化學習訓練至 2000 步,打造全球最佳 1.5B 推理 AI 模型

來源: 責編: 時間:2025-06-09 09:36:50 34觀看
導讀 6 月 5 日消息,科技媒體 marktechpost 昨日(6 月 4 日)發布博文,報道稱英偉達推出 ProRL 強化學習方法,并開發出全球最佳的 1.5B 參數推理模型 Nemotron-Research-Reasoning-Qwen-1.5B。背景簡介推理模型是一種專

6 月 5 日消息,科技媒體 marktechpost 昨日(6 月 4 日)發布博文,報道稱英偉達推出 ProRL 強化學習方法,并開發出全球最佳的 1.5B 參數推理模型 Nemotron-Research-Reasoning-Qwen-1.5B。cZs28資訊網——每日最新資訊28at.com

背景簡介cZs28資訊網——每日最新資訊28at.com

推理模型是一種專門的人工智能系統,通過詳細的長鏈推理(Chain of Thought,CoT)過程生成最終答案。cZs28資訊網——每日最新資訊28at.com

強化學習(Reinforcement Learning,RL)在訓練中扮演非常重要的角色,DeepSeek 和 Kimi 等團隊采用可驗證獎勵的強化學習(RLVR)方法,推廣了 GRPO、Mirror Descent 和 RLOO 等算法。cZs28資訊網——每日最新資訊28at.com

然而,研究者仍在爭論強化學習是否真正提升大型語言模型(LLM)的推理能力。現有數據表明,RLVR 在 pass@k 指標上未能顯著優于基礎模型,顯示推理能力擴展受限。cZs28資訊網——每日最新資訊28at.com

此外,當前研究多集中于數學等特定領域,模型常被過度訓練,限制了探索潛力;同時,訓練步數通常僅數百步,未能讓模型充分發展新能力。cZs28資訊網——每日最新資訊28at.com

ProRL 方法的突破與應用cZs28資訊網——每日最新資訊28at.com

英偉達研究團隊為解決上述問題,推出 ProRL 方法,延長強化學習訓練時間至超過 2000 步,并將訓練數據擴展至數學、編程、STEM、邏輯謎題和指令遵循等多個領域,涵蓋 13.6 萬個樣本。cZs28資訊網——每日最新資訊28at.com

cZs28資訊網——每日最新資訊28at.com

他們采用 verl 框架和改進的 GRPO 方法,開發出 Nemotron-Research-Reasoning-Qwen-1.5B 模型。cZs28資訊網——每日最新資訊28at.com

這是全球最佳的 1.5B 參數推理模型,在多項基準測試中超越基礎模型 DeepSeek-R1-1.5B,甚至優于更大的 DeepSeek-R1-7B。cZs28資訊網——每日最新資訊28at.com

cZs28資訊網——每日最新資訊28at.com

測試結果顯示,該模型在數學領域平均提升 15.7%,編程任務 pass@1 準確率提升 14.4%,STEM 推理和指令遵循分別提升 25.9% 和 22.0%,邏輯謎題獎勵值提升 54.8%,展現出強大的泛化能力。cZs28資訊網——每日最新資訊28at.com

附上參考地址cZs28資訊網——每日最新資訊28at.com

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language ModelscZs28資訊網——每日最新資訊28at.com

huggingfacecZs28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-13540-0.html英偉達推出 ProRL 方法:強化學習訓練至 2000 步,打造全球最佳 1.5B 推理 AI 模型

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 亞馬遜的神秘 Lab126 部門組建新機器人團隊,進軍“物理 AI”

下一篇: 6月8日短劇付費熱度揭秘:大盤破5430萬,《十八歲太奶奶》蟬聯冠軍

標簽:
  • 熱門焦點
  • 數字人的AB面:在元宇宙中過氣,在AIGC中重生

    來源:光錐智能作者:郝 鑫“29800元一年的虛擬主播,號稱24小時不停播,月入十幾萬,實際上卻是關鍵詞都不能回復,播了半個月,直播間還因違規被快手封禁,最終投訴無門、退款無果。&
  • 數字人的新革命,BAT的“沖高”戰場

    來源:劉曠ChatGPT橫空出世,讓人們看到了數字人的另一種可能,將ChatGPT與虛擬數字人融合,研發出更加智能化、擬人化的虛擬數字人成為數字人廠商的新命題、新方向。2月份,嶺南股份
  • “任何國產元宇宙都是假元宇宙”

    上個月,華語樂壇的優質偶像之一,DOTA2資深玩家林俊杰,在國外元宇宙產品分布式大陸(Decentraland)上買了三塊虛擬地產,花了12.3萬美元(也就是人民幣接近80萬)。截至目
  • 米哈游推出元宇宙品牌;VR/AR老牌企業當紅齊天完成B輪+融資

    今日熱點:蘋果AR/VR頭顯的FaceTime或基于Memojis和SharePlay構建而成;VR/AR老牌企業當紅齊天完成B輪+融資;米哈游推出元宇宙品牌HoYoverse;國產VR射擊游戲《Contra
  • Meta元宇宙女性安全問題頻發,元宇宙中相關問題該如何解決?

    在女性遭受性騷擾甚至被攻擊的事件相繼被報道之后,仍處于萌芽狀態的虛擬現實空間成為人們關注的焦點。許多女性發聲表示在使用Meta旗下的Horizon Worlds及其姊
  • 元宇宙是推動NFT發展的初始家園

    現在大家都知道了什么是NFT,但好像離自己的生活還有一定距離。隨著我們與NFT 接觸增加,該如何將這些數字資產帶入我們的日常生活?NFT還是主流嗎?如果我們將“主流
  • 藝術創作者能否永久收取版稅?

    NFTs正在改變我們理解互聯網所有權的方式,社區管理的所有權有很多好處,但如果創作者想為他/她的創作獲得永久的收益(版稅),會發生什么?這不是一個容易解決的問題,版稅
  • 音樂家如何利用NFTs來提高歌迷參與度

    "音樂是一種語言,不以特定的文字說話。它用情感說話,如果它在骨子里,它就在骨子里。" - Keith Richards音樂激勵著我們,使我們流淚,使我們充滿狂喜,并撫慰我們的靈魂
  • 元宇宙專題二:GameFi 深度解析,元宇宙內容雛形顯現

    GameFi=Game(游戲)+DEFI(去中心化金融),核心特點為“Play to Earn”。通過技術與去中心化價值觀賦能,GameFi 游戲資產化身為NFT 和代幣上鏈,具備了可驗證性和流通性;開
Top 主站蜘蛛池模板: 甘德县| 开江县| 北京市| 独山县| 旬邑县| 扶沟县| 大名县| 漳州市| 彩票| 丹东市| 桂东县| 仁寿县| 托里县| 台东市| 灵丘县| 孙吴县| 龙南县| 铜鼓县| 凤冈县| 漾濞| 北京市| 宜良县| 沐川县| 永安市| 阳新县| 靖边县| 镇康县| 如东县| 赤峰市| 宝鸡市| 祁东县| 北宁市| 仪陇县| 托克托县| 丰原市| 泰和县| 皋兰县| 太原市| 南华县| 临泽县| 新巴尔虎右旗|