當前位置：首頁 > 元宇宙 > AI

英偉達推出 ProRL 方法：強化學習訓練至 2000 步，打造全球最佳 1.5B 推理 AI 模型

來源：責編：時間：2025-06-09 09:36:50 34觀看

導讀 6 月 5 日消息，科技媒體 marktechpost 昨日（6 月 4 日）發布博文，報道稱英偉達推出 ProRL 強化學習方法，并開發出全球最佳的 1.5B 參數推理模型 Nemotron-Research-Reasoning-Qwen-1.5B。背景簡介推理模型是一種專

6 月 5 日消息，科技媒體 marktechpost 昨日（6 月 4 日）發布博文，報道稱英偉達推出 ProRL 強化學習方法，并開發出全球最佳的 1.5B 參數推理模型 Nemotron-Research-Reasoning-Qwen-1.5B。

背景簡介

推理模型是一種專門的人工智能系統，通過詳細的長鏈推理（Chain of Thought，CoT）過程生成最終答案。

強化學習（Reinforcement Learning，RL）在訓練中扮演非常重要的角色，DeepSeek 和 Kimi 等團隊采用可驗證獎勵的強化學習（RLVR）方法，推廣了 GRPO、Mirror Descent 和 RLOO 等算法。

然而，研究者仍在爭論強化學習是否真正提升大型語言模型（LLM）的推理能力。現有數據表明，RLVR 在 pass@k 指標上未能顯著優于基礎模型，顯示推理能力擴展受限。

此外，當前研究多集中于數學等特定領域，模型常被過度訓練，限制了探索潛力；同時，訓練步數通常僅數百步，未能讓模型充分發展新能力。

ProRL 方法的突破與應用

英偉達研究團隊為解決上述問題，推出 ProRL 方法，延長強化學習訓練時間至超過 2000 步，并將訓練數據擴展至數學、編程、STEM、邏輯謎題和指令遵循等多個領域，涵蓋 13.6 萬個樣本。

他們采用 verl 框架和改進的 GRPO 方法，開發出 Nemotron-Research-Reasoning-Qwen-1.5B 模型。

這是全球最佳的 1.5B 參數推理模型，在多項基準測試中超越基礎模型 DeepSeek-R1-1.5B，甚至優于更大的 DeepSeek-R1-7B。

測試結果顯示，該模型在數學領域平均提升 15.7%，編程任務 pass@1 準確率提升 14.4%，STEM 推理和指令遵循分別提升 25.9% 和 22.0%，邏輯謎題獎勵值提升 54.8%，展現出強大的泛化能力。

附上參考地址

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

huggingface

本文鏈接：http://www.www897cc.com/showinfo-45-13540-0.html英偉達推出 ProRL 方法：強化學習訓練至 2000 步，打造全球最佳 1.5B 推理 AI 模型

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：亞馬遜的神秘 Lab126 部門組建新機器人團隊，進軍“物理 AI”

下一篇： 6月8日短劇付費熱度揭秘：大盤破5430萬，《十八歲太奶奶》蟬聯冠軍

標簽：

熱門焦點

數字人的AB面：在元宇宙中過氣，在AIGC中重生

來源：光錐智能作者：郝鑫“29800元一年的虛擬主播，號稱24小時不停播，月入十幾萬，實際上卻是關鍵詞都不能回復，播了半個月，直播間還因違規被快手封禁，最終投訴無門、退款無果。&
數字人的新革命，BAT的“沖高”戰場

來源：劉曠ChatGPT橫空出世，讓人們看到了數字人的另一種可能，將ChatGPT與虛擬數字人融合，研發出更加智能化、擬人化的虛擬數字人成為數字人廠商的新命題、新方向。2月份，嶺南股份
“任何國產元宇宙都是假元宇宙”

上個月，華語樂壇的優質偶像之一，DOTA2資深玩家林俊杰，在國外元宇宙產品分布式大陸(Decentraland)上買了三塊虛擬地產，花了12.3萬美元（也就是人民幣接近80萬）。截至目
米哈游推出元宇宙品牌；VR/AR老牌企業當紅齊天完成B輪+融資

今日熱點：蘋果AR/VR頭顯的FaceTime或基于Memojis和SharePlay構建而成；VR/AR老牌企業當紅齊天完成B輪+融資；米哈游推出元宇宙品牌HoYoverse；國產VR射擊游戲《Contra
Meta元宇宙女性安全問題頻發，元宇宙中相關問題該如何解決？

在女性遭受性騷擾甚至被攻擊的事件相繼被報道之后，仍處于萌芽狀態的虛擬現實空間成為人們關注的焦點。許多女性發聲表示在使用Meta旗下的Horizon Worlds及其姊
元宇宙是推動NFT發展的初始家園

現在大家都知道了什么是NFT，但好像離自己的生活還有一定距離。隨著我們與NFT 接觸增加，該如何將這些數字資產帶入我們的日常生活？NFT還是主流嗎？如果我們將“主流
藝術創作者能否永久收取版稅？

NFTs正在改變我們理解互聯網所有權的方式，社區管理的所有權有很多好處，但如果創作者想為他/她的創作獲得永久的收益（版稅），會發生什么？這不是一個容易解決的問題，版稅
音樂家如何利用NFTs來提高歌迷參與度

"音樂是一種語言，不以特定的文字說話。它用情感說話，如果它在骨子里，它就在骨子里。" - Keith Richards音樂激勵著我們，使我們流淚，使我們充滿狂喜，并撫慰我們的靈魂
元宇宙專題二：GameFi 深度解析，元宇宙內容雛形顯現

GameFi=Game（游戲）+DEFI（去中心化金融），核心特點為“Play to Earn”。通過技術與去中心化價值觀賦能，GameFi 游戲資產化身為NFT 和代幣上鏈，具備了可驗證性和流通性；開

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

英偉達推出 ProRL 方法：強化學習訓練至 2000 步，打造全球最佳 1.5B 推理 AI 模型

數字人的AB面：在元宇宙中過氣，在AIGC中重生

數字人的新革命，BAT的“沖高”戰場

“任何國產元宇宙都是假元宇宙”

米哈游推出元宇宙品牌；VR/AR老牌企業當紅齊天完成B輪+融資

Meta元宇宙女性安全問題頻發，元宇宙中相關問題該如何解決？

元宇宙是推動NFT發展的初始家園

藝術創作者能否永久收取版稅？

音樂家如何利用NFTs來提高歌迷參與度

元宇宙專題二：GameFi 深度解析，元宇宙內容雛形顯現

最新推薦

三院士三教授熱聊元宇宙&——AIGC，學術界怎么看？

2022開年最熱投資賽道竟是虛擬人，背后隱藏了什么商業價值？

“元宇宙”里過大年，《迷你世界》在做一場怎樣的實驗？

2022 區塊鏈 50 強榜單；垃圾NFT項目的十三個特性

暴漲100倍的NFT worlds 會是未來元宇宙的雛形嗎？

元宇宙+劇本殺：“在異世界里當演員”

猜你喜歡

熱門推薦

相關資訊

英偉達推出 ProRL 方法：強化學習訓練至 2000 步，打造全球最佳 1.5B 推理 AI 模型

最新推薦

猜你喜歡

熱門推薦

相關資訊

英偉達推出 ProRL 方法：強化學習訓練至 2000 步，打造全球最佳 1.5B 推理 AI 模型