5 月 14 日消息,科技媒體 marktechpost 昨日(5 月 13 日)發(fā)布博文,報道稱英偉達(dá)聯(lián)合推出 Nemotron-Research-Tool-N1 系列模型,受 DeepSeek-R1 啟發(fā),采用新型強化學(xué)習(xí)(RL)范式,強化模型推理能力。
大型語言模型(LLMs)通過外部工具提升性能已成為熱門趨勢,這些工具幫助 LLMs 在搜索引擎、計算器、視覺工具和 Python 解釋器等領(lǐng)域表現(xiàn)出色。但現(xiàn)有研究依賴合成數(shù)據(jù)集,無法捕捉明確的推理步驟,導(dǎo)致模型僅模仿表面模式,而非真正理解決策過程。
為了提升 LLMs 的工具使用能力,現(xiàn)有方法探索了多種策略。主要包括兩方面:第一,數(shù)據(jù)集整理和模型優(yōu)化。研究者創(chuàng)建大規(guī)模監(jiān)督數(shù)據(jù)集,并應(yīng)用監(jiān)督微調(diào)(SFT)和直接偏好優(yōu)化(DPO)強化學(xué)習(xí)等技術(shù),將 LLMs 與外部工具整合,擴展其功能。
第二,改進(jìn)推理過程。從傳統(tǒng)的訓(xùn)練時擴展轉(zhuǎn)向測試時復(fù)雜策略。早期方法依賴步驟級監(jiān)督和學(xué)習(xí)獎勵模型,指導(dǎo)推理軌跡。
這些方法雖有效,卻仍受限于合成數(shù)據(jù)的不足。研究者指出,通過這些策略,LLMs 能處理單輪或多輪工具調(diào)用,但缺乏自主推理的深度。
英偉達(dá)聯(lián)合賓夕法尼亞州立大學(xué)、華盛頓大學(xué),組建專業(yè)團(tuán)隊,合作開發(fā) Nemotron-Research-Tool-N1 系列,針對現(xiàn)有方法的局限性,借鑒 DeepSeek-R1 的成功,開發(fā)輕量級監(jiān)督機制,專注于工具調(diào)用的結(jié)構(gòu)有效性和功能正確性。
Nemotron-Research-Tool-N1 系列并非依賴顯式標(biāo)注的推理軌跡,而是采用二元獎勵機制,讓模型自主發(fā)展推理策略。
研究者統(tǒng)一處理了 xLAM 和 ToolACE 等數(shù)據(jù)集(提供單輪和多輪工具調(diào)用軌跡)的子集,并設(shè)計了輕量級提示模板,指導(dǎo)工具生成過程。
該模板使用 <think>...</think > 標(biāo)簽明確指示中間推理,并用 < tool_call>...</tool_call > 標(biāo)簽封裝工具調(diào)用,這樣避免了過度擬合特定提示模式。
主干模型為 Qwen2.5-7B / 14B,并測試了 LLaMA 系列變體,以評估泛化能力。在 BFCL 基準(zhǔn)測試中,Nemotron-Research-Tool-N1-7B / 14B 模型表現(xiàn)出色,超越了 GPT-4o 等封閉源模型,以及 xLAM-2-70B 和 ToolACE-8B 等專用微調(diào)模型。
與相同數(shù)據(jù)源的 SFT 基準(zhǔn)相比,該模型優(yōu)勢明顯,證明了 RL 方法的有效性。在 API-Bank 基準(zhǔn)上,Tool-N1-7B / 14B 的準(zhǔn)確率分別比 GPT-4o 高出 4.12% 和 5.03%。這些結(jié)果驗證了新方法的潛力,幫助 LLMs 更自主地生成推理策略。研究者總結(jié)認(rèn)為,這標(biāo)志著從傳統(tǒng) SFT 向 RL 范式的轉(zhuǎn)變。
附上參考地址
Nemotron-Research-Tool-N1: Tool-Using Language Models with Reinforced Reasoning
Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced Reasoning
本文鏈接:http://www.www897cc.com/showinfo-45-12878-0.html英偉達(dá)發(fā)布新 RL 范式:受 DeepSeek-R1 啟發(fā),重塑 AI 模型外部工具能力
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: AI手機競賽白熱化,品牌如何跨越成本與功能挑戰(zhàn)?
下一篇: Anthropic 即推 AI 新星:Claude Neptune 安全測試收官在即,對戰(zhàn) GPT-5 和 Gemini Ultra