當前位置：首頁 > 元宇宙 > AI

英偉達發布新 RL 范式：受 DeepSeek-R1 啟發，重塑 AI 模型外部工具能力

來源：責編：時間：2025-05-16 09:03:09 65觀看

導讀 5 月 14 日消息，科技媒體 marktechpost 昨日（5 月 13 日）發布博文，報道稱英偉達聯合推出 Nemotron-Research-Tool-N1 系列模型，受 DeepSeek-R1 啟發，采用新型強化學習（RL）范式，強化模型推理能力。大型語言模型（LLMs）通過

5 月 14 日消息，科技媒體 marktechpost 昨日（5 月 13 日）發布博文，報道稱英偉達聯合推出 Nemotron-Research-Tool-N1 系列模型，受 DeepSeek-R1 啟發，采用新型強化學習（RL）范式，強化模型推理能力。

大型語言模型（LLMs）通過外部工具提升性能已成為熱門趨勢，這些工具幫助 LLMs 在搜索引擎、計算器、視覺工具和 Python 解釋器等領域表現出色。但現有研究依賴合成數據集，無法捕捉明確的推理步驟，導致模型僅模仿表面模式，而非真正理解決策過程。

為了提升 LLMs 的工具使用能力，現有方法探索了多種策略。主要包括兩方面：第一，數據集整理和模型優化。研究者創建大規模監督數據集，并應用監督微調（SFT）和直接偏好優化（DPO）強化學習等技術，將 LLMs 與外部工具整合，擴展其功能。

第二，改進推理過程。從傳統的訓練時擴展轉向測試時復雜策略。早期方法依賴步驟級監督和學習獎勵模型，指導推理軌跡。

這些方法雖有效，卻仍受限于合成數據的不足。研究者指出，通過這些策略，LLMs 能處理單輪或多輪工具調用，但缺乏自主推理的深度。

英偉達聯合賓夕法尼亞州立大學、華盛頓大學，組建專業團隊，合作開發 Nemotron-Research-Tool-N1 系列，針對現有方法的局限性，借鑒 DeepSeek-R1 的成功，開發輕量級監督機制，專注于工具調用的結構有效性和功能正確性。

Nemotron-Research-Tool-N1 系列并非依賴顯式標注的推理軌跡，而是采用二元獎勵機制，讓模型自主發展推理策略。

研究者統一處理了 xLAM 和 ToolACE 等數據集（提供單輪和多輪工具調用軌跡）的子集，并設計了輕量級提示模板，指導工具生成過程。

該模板使用 <think>...</think > 標簽明確指示中間推理，并用 < tool_call>...</tool_call > 標簽封裝工具調用，這樣避免了過度擬合特定提示模式。

主干模型為 Qwen2.5-7B / 14B，并測試了 LLaMA 系列變體，以評估泛化能力。在 BFCL 基準測試中，Nemotron-Research-Tool-N1-7B / 14B 模型表現出色，超越了 GPT-4o 等封閉源模型，以及 xLAM-2-70B 和 ToolACE-8B 等專用微調模型。

與相同數據源的 SFT 基準相比，該模型優勢明顯，證明了 RL 方法的有效性。在 API-Bank 基準上，Tool-N1-7B / 14B 的準確率分別比 GPT-4o 高出 4.12% 和 5.03%。這些結果驗證了新方法的潛力，幫助 LLMs 更自主地生成推理策略。研究者總結認為，這標志著從傳統 SFT 向 RL 范式的轉變。

附上參考地址

Nemotron-Research-Tool-N1: Tool-Using Language Models with Reinforced Reasoning

Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced Reasoning

本文鏈接：http://www.www897cc.com/showinfo-45-12878-0.html英偉達發布新 RL 范式：受 DeepSeek-R1 啟發，重塑 AI 模型外部工具能力

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： AI手機競賽白熱化，品牌如何跨越成本與功能挑戰？

下一篇： Anthropic 即推 AI 新星：Claude Neptune 安全測試收官在即，對戰 GPT-5 和 Gemini Ultra

標簽：

熱門焦點

關于ChatGPT的10點思考

作者：晏濤三壽近日ChatGPT又有大動作。5月19日，OpenAI在官網宣布正式發布App應用，并登錄蘋果應用商店。與網頁版的聊天機器人相比，iOS應用程序的發布有望讓更多人接觸到ChatGPT
Meta、谷歌、微軟競相涌入元宇宙，小型企業該如何伺機而動？

目前來看元宇宙不會影響到小型企業的發展，但在接下來的十年內可能會發生很多變化。很多有商業頭腦的企業家都在密切關注著元宇宙的發展。元宇宙這個詞，你一定或
索尼公布PSVR 2頭顯渲染圖；社區開發者發布Quest版《我的世界》

近日熱點：索尼正式公布PSVR 2頭顯及控制器官方渲染圖；入局元宇宙，鴻海科技與XRSPACE簽訂合作備忘錄；研究人員表示面部追蹤可增強VR操控體驗；社區開發者QuestCraft發
「國產良心」NFT嘲諷了誰？

2月23日，一個名為「國產良心」的NFT項目被許多活躍的加密用戶注意到。該項目的官網風格尤為「不正經」，它絲毫沒有避諱自己的小作坊出身，還將「中國人不騙中國人
韓國建立元宇宙生態系統，智度股份發布元宇宙社區Meta彼岸

財聯社|區塊鏈日報28日訊今日《元宇宙新鮮事》有：杭州第十三次黨代會報告指出抓緊布局元宇宙等未來產業；韓國科學信息通信技術部宣布投資1.85億美元建立元宇宙
本周NFT領域重要資訊回顧

NFT在蘇富比拍賣是一波三折的嗎？其實不完全如此，但本周在蘇富比拍賣行發生了一系列有趣的事。與此同時，美聯社因其最新的NFT銷售被推到了風口浪尖，而Opensea正面臨
小眾有趣NFT藝術作品欣賞（1）

隨著NFT發展火熱，越來越多領域與NFT融合，NFT藝術在加密領域中占據了很大一部分。NFT藝術與傳統藝術有相似之處，也有完全不同的地方。NFT藝術與傳統藝術一樣，表現了
知識產權可能在元宇宙中“消失”？

開篇老雅痞先來劃重點：一些公司開始采取積極的方式來保護他們在元宇宙的知識產權。耐克、愛馬仕和米拉麥克斯最近提起訴訟，聲稱NFT侵犯了他們的知識產權。Inside
王老吉啟動元宇宙“吉空間”，HTC發布元宇宙應用VIVERSE

今日《元宇宙新鮮事》有：王老吉啟動元宇宙“吉空間”；HTC發布元宇宙應用VIVERSE；Meta將在馬德里構建一個元宇宙創新中心；央視網《新聞+》推出系列視頻《聊聊元宇宙

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

英偉達發布新 RL 范式：受 DeepSeek-R1 啟發，重塑 AI 模型外部工具能力

關于ChatGPT的10點思考

Meta、谷歌、微軟競相涌入元宇宙，小型企業該如何伺機而動？

索尼公布PSVR 2頭顯渲染圖；社區開發者發布Quest版《我的世界》

「國產良心」NFT嘲諷了誰？

韓國建立元宇宙生態系統，智度股份發布元宇宙社區Meta彼岸

本周NFT領域重要資訊回顧

小眾有趣NFT藝術作品欣賞（1）

知識產權可能在元宇宙中“消失”？

王老吉啟動元宇宙“吉空間”，HTC發布元宇宙應用VIVERSE

最新推薦

AI大模型“戰火”燒到了教育領域

Meta元宇宙女性安全問題頻發，元宇宙中相關問題該如何解決？

比特幣的價格越高，使用價值越大

從NFT頂級公鏈到Web3.0基礎設施：帶你了解不一樣的Flow

“我沒搞懂元宇宙，但一天能賺9w塊”

以用戶為中心，Web3和區塊鏈如何將用戶放在首位

猜你喜歡

熱門推薦

相關資訊