日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 元宇宙 > AI

英偉達(dá)發(fā)布新 RL 范式:受 DeepSeek-R1 啟發(fā),重塑 AI 模型外部工具能力

來源: 責(zé)編: 時間:2025-05-16 09:03:09 38觀看
導(dǎo)讀 5 月 14 日消息,科技媒體 marktechpost 昨日(5 月 13 日)發(fā)布博文,報道稱英偉達(dá)聯(lián)合推出 Nemotron-Research-Tool-N1 系列模型,受 DeepSeek-R1 啟發(fā),采用新型強化學(xué)習(xí)(RL)范式,強化模型推理能力。大型語言模型(LLMs)通過

5 月 14 日消息,科技媒體 marktechpost 昨日(5 月 13 日)發(fā)布博文,報道稱英偉達(dá)聯(lián)合推出 Nemotron-Research-Tool-N1 系列模型,受 DeepSeek-R1 啟發(fā),采用新型強化學(xué)習(xí)(RL)范式,強化模型推理能力。wa828資訊網(wǎng)——每日最新資訊28at.com

大型語言模型(LLMs)通過外部工具提升性能已成為熱門趨勢,這些工具幫助 LLMs 在搜索引擎、計算器、視覺工具和 Python 解釋器等領(lǐng)域表現(xiàn)出色。但現(xiàn)有研究依賴合成數(shù)據(jù)集,無法捕捉明確的推理步驟,導(dǎo)致模型僅模仿表面模式,而非真正理解決策過程。wa828資訊網(wǎng)——每日最新資訊28at.com

為了提升 LLMs 的工具使用能力,現(xiàn)有方法探索了多種策略。主要包括兩方面:第一,數(shù)據(jù)集整理和模型優(yōu)化。研究者創(chuàng)建大規(guī)模監(jiān)督數(shù)據(jù)集,并應(yīng)用監(jiān)督微調(diào)(SFT)和直接偏好優(yōu)化(DPO)強化學(xué)習(xí)等技術(shù),將 LLMs 與外部工具整合,擴展其功能。wa828資訊網(wǎng)——每日最新資訊28at.com

第二,改進(jìn)推理過程。從傳統(tǒng)的訓(xùn)練時擴展轉(zhuǎn)向測試時復(fù)雜策略。早期方法依賴步驟級監(jiān)督和學(xué)習(xí)獎勵模型,指導(dǎo)推理軌跡。wa828資訊網(wǎng)——每日最新資訊28at.com

這些方法雖有效,卻仍受限于合成數(shù)據(jù)的不足。研究者指出,通過這些策略,LLMs 能處理單輪或多輪工具調(diào)用,但缺乏自主推理的深度。wa828資訊網(wǎng)——每日最新資訊28at.com

英偉達(dá)聯(lián)合賓夕法尼亞州立大學(xué)、華盛頓大學(xué),組建專業(yè)團(tuán)隊,合作開發(fā) Nemotron-Research-Tool-N1 系列,針對現(xiàn)有方法的局限性,借鑒 DeepSeek-R1 的成功,開發(fā)輕量級監(jiān)督機制,專注于工具調(diào)用的結(jié)構(gòu)有效性和功能正確性。wa828資訊網(wǎng)——每日最新資訊28at.com

wa828資訊網(wǎng)——每日最新資訊28at.com

Nemotron-Research-Tool-N1 系列并非依賴顯式標(biāo)注的推理軌跡,而是采用二元獎勵機制,讓模型自主發(fā)展推理策略。wa828資訊網(wǎng)——每日最新資訊28at.com

研究者統(tǒng)一處理了 xLAM 和 ToolACE 等數(shù)據(jù)集(提供單輪和多輪工具調(diào)用軌跡)的子集,并設(shè)計了輕量級提示模板,指導(dǎo)工具生成過程。wa828資訊網(wǎng)——每日最新資訊28at.com

wa828資訊網(wǎng)——每日最新資訊28at.com

該模板使用 <think>...</think > 標(biāo)簽明確指示中間推理,并用 < tool_call>...</tool_call > 標(biāo)簽封裝工具調(diào)用,這樣避免了過度擬合特定提示模式。wa828資訊網(wǎng)——每日最新資訊28at.com

wa828資訊網(wǎng)——每日最新資訊28at.com

主干模型為 Qwen2.5-7B / 14B,并測試了 LLaMA 系列變體,以評估泛化能力。在 BFCL 基準(zhǔn)測試中,Nemotron-Research-Tool-N1-7B / 14B 模型表現(xiàn)出色,超越了 GPT-4o 等封閉源模型,以及 xLAM-2-70B 和 ToolACE-8B 等專用微調(diào)模型。wa828資訊網(wǎng)——每日最新資訊28at.com

wa828資訊網(wǎng)——每日最新資訊28at.com

與相同數(shù)據(jù)源的 SFT 基準(zhǔn)相比,該模型優(yōu)勢明顯,證明了 RL 方法的有效性。在 API-Bank 基準(zhǔn)上,Tool-N1-7B / 14B 的準(zhǔn)確率分別比 GPT-4o 高出 4.12% 和 5.03%。這些結(jié)果驗證了新方法的潛力,幫助 LLMs 更自主地生成推理策略。研究者總結(jié)認(rèn)為,這標(biāo)志著從傳統(tǒng) SFT 向 RL 范式的轉(zhuǎn)變。wa828資訊網(wǎng)——每日最新資訊28at.com

wa828資訊網(wǎng)——每日最新資訊28at.com

wa828資訊網(wǎng)——每日最新資訊28at.com

wa828資訊網(wǎng)——每日最新資訊28at.com

附上參考地址wa828資訊網(wǎng)——每日最新資訊28at.com

Nemotron-Research-Tool-N1: Tool-Using Language Models with Reinforced Reasoningwa828資訊網(wǎng)——每日最新資訊28at.com

Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced Reasoningwa828資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-12878-0.html英偉達(dá)發(fā)布新 RL 范式:受 DeepSeek-R1 啟發(fā),重塑 AI 模型外部工具能力

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: AI手機競賽白熱化,品牌如何跨越成本與功能挑戰(zhàn)?

下一篇: Anthropic 即推 AI 新星:Claude Neptune 安全測試收官在即,對戰(zhàn) GPT-5 和 Gemini Ultra

標(biāo)簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 鄂尔多斯市| 黔东| 宜都市| 南川市| 南开区| 阿合奇县| 启东市| 九江县| 汤原县| 盐源县| 青海省| 红原县| 九龙坡区| 应用必备| 高邑县| 沁源县| 永川市| 威宁| 长乐市| 泽普县| 衡南县| 金塔县| 麟游县| 平乡县| 准格尔旗| 利川市| 台前县| 衡东县| 冀州市| 阿尔山市| 闽侯县| 吉木萨尔县| 松原市| 山阴县| 海丰县| 北票市| 洪江市| 瓦房店市| 分宜县| 蒲城县| 喀喇沁旗|