日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

英偉達發布新 RL 范式:受 DeepSeek-R1 啟發,重塑 AI 模型外部工具能力

來源: 責編: 時間:2025-05-16 09:03:09 65觀看
導讀 5 月 14 日消息,科技媒體 marktechpost 昨日(5 月 13 日)發布博文,報道稱英偉達聯合推出 Nemotron-Research-Tool-N1 系列模型,受 DeepSeek-R1 啟發,采用新型強化學習(RL)范式,強化模型推理能力。大型語言模型(LLMs)通過

5 月 14 日消息,科技媒體 marktechpost 昨日(5 月 13 日)發布博文,報道稱英偉達聯合推出 Nemotron-Research-Tool-N1 系列模型,受 DeepSeek-R1 啟發,采用新型強化學習(RL)范式,強化模型推理能力。a8k28資訊網——每日最新資訊28at.com

大型語言模型(LLMs)通過外部工具提升性能已成為熱門趨勢,這些工具幫助 LLMs 在搜索引擎、計算器、視覺工具和 Python 解釋器等領域表現出色。但現有研究依賴合成數據集,無法捕捉明確的推理步驟,導致模型僅模仿表面模式,而非真正理解決策過程。a8k28資訊網——每日最新資訊28at.com

為了提升 LLMs 的工具使用能力,現有方法探索了多種策略。主要包括兩方面:第一,數據集整理和模型優化。研究者創建大規模監督數據集,并應用監督微調(SFT)和直接偏好優化(DPO)強化學習等技術,將 LLMs 與外部工具整合,擴展其功能。a8k28資訊網——每日最新資訊28at.com

第二,改進推理過程。從傳統的訓練時擴展轉向測試時復雜策略。早期方法依賴步驟級監督和學習獎勵模型,指導推理軌跡。a8k28資訊網——每日最新資訊28at.com

這些方法雖有效,卻仍受限于合成數據的不足。研究者指出,通過這些策略,LLMs 能處理單輪或多輪工具調用,但缺乏自主推理的深度。a8k28資訊網——每日最新資訊28at.com

英偉達聯合賓夕法尼亞州立大學、華盛頓大學,組建專業團隊,合作開發 Nemotron-Research-Tool-N1 系列,針對現有方法的局限性,借鑒 DeepSeek-R1 的成功,開發輕量級監督機制,專注于工具調用的結構有效性和功能正確性。a8k28資訊網——每日最新資訊28at.com

a8k28資訊網——每日最新資訊28at.com

Nemotron-Research-Tool-N1 系列并非依賴顯式標注的推理軌跡,而是采用二元獎勵機制,讓模型自主發展推理策略。a8k28資訊網——每日最新資訊28at.com

研究者統一處理了 xLAM 和 ToolACE 等數據集(提供單輪和多輪工具調用軌跡)的子集,并設計了輕量級提示模板,指導工具生成過程。a8k28資訊網——每日最新資訊28at.com

a8k28資訊網——每日最新資訊28at.com

該模板使用 <think>...</think > 標簽明確指示中間推理,并用 < tool_call>...</tool_call > 標簽封裝工具調用,這樣避免了過度擬合特定提示模式。a8k28資訊網——每日最新資訊28at.com

a8k28資訊網——每日最新資訊28at.com

主干模型為 Qwen2.5-7B / 14B,并測試了 LLaMA 系列變體,以評估泛化能力。在 BFCL 基準測試中,Nemotron-Research-Tool-N1-7B / 14B 模型表現出色,超越了 GPT-4o 等封閉源模型,以及 xLAM-2-70B 和 ToolACE-8B 等專用微調模型。a8k28資訊網——每日最新資訊28at.com

a8k28資訊網——每日最新資訊28at.com

與相同數據源的 SFT 基準相比,該模型優勢明顯,證明了 RL 方法的有效性。在 API-Bank 基準上,Tool-N1-7B / 14B 的準確率分別比 GPT-4o 高出 4.12% 和 5.03%。這些結果驗證了新方法的潛力,幫助 LLMs 更自主地生成推理策略。研究者總結認為,這標志著從傳統 SFT 向 RL 范式的轉變。a8k28資訊網——每日最新資訊28at.com

a8k28資訊網——每日最新資訊28at.com

a8k28資訊網——每日最新資訊28at.com

a8k28資訊網——每日最新資訊28at.com

附上參考地址a8k28資訊網——每日最新資訊28at.com

Nemotron-Research-Tool-N1: Tool-Using Language Models with Reinforced Reasoninga8k28資訊網——每日最新資訊28at.com

Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced Reasoninga8k28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-12878-0.html英偉達發布新 RL 范式:受 DeepSeek-R1 啟發,重塑 AI 模型外部工具能力

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: AI手機競賽白熱化,品牌如何跨越成本與功能挑戰?

下一篇: Anthropic 即推 AI 新星:Claude Neptune 安全測試收官在即,對戰 GPT-5 和 Gemini Ultra

標簽:
  • 熱門焦點
  • 關于ChatGPT的10點思考

    作者:晏濤三壽近日ChatGPT又有大動作。5月19日,OpenAI在官網宣布正式發布App應用,并登錄蘋果應用商店。與網頁版的聊天機器人相比,iOS應用程序的發布有望讓更多人接觸到ChatGPT
  • Meta、谷歌、微軟競相涌入元宇宙,小型企業該如何伺機而動?

    目前來看元宇宙不會影響到小型企業的發展,但在接下來的十年內可能會發生很多變化。很多有商業頭腦的企業家都在密切關注著元宇宙的發展。元宇宙這個詞,你一定或
  • 索尼公布PSVR 2頭顯渲染圖;社區開發者發布Quest版《我的世界》

    近日熱點:索尼正式公布PSVR 2頭顯及控制器官方渲染圖;入局元宇宙,鴻海科技與XRSPACE簽訂合作備忘錄;研究人員表示面部追蹤可增強VR操控體驗;社區開發者QuestCraft發
  • 「國產良心」NFT嘲諷了誰?

    2月23日,一個名為「國產良心」的NFT項目被許多活躍的加密用戶注意到。該項目的官網風格尤為「不正經」,它絲毫沒有避諱自己的小作坊出身,還將「中國人不騙中國人
  • 韓國建立元宇宙生態系統,智度股份發布元宇宙社區Meta彼岸

    財聯社|區塊鏈日報28日訊 今日《元宇宙新鮮事》有:杭州第十三次黨代會報告指出抓緊布局元宇宙等未來產業;韓國科學信息通信技術部宣布投資1.85億美元建立元宇宙
  • 本周NFT領域重要資訊回顧

    NFT在蘇富比拍賣是一波三折的嗎?其實不完全如此,但本周在蘇富比拍賣行發生了一系列有趣的事。與此同時,美聯社因其最新的NFT銷售被推到了風口浪尖,而Opensea正面臨
  • 小眾有趣NFT藝術作品欣賞(1)

    隨著NFT發展火熱,越來越多領域與NFT融合,NFT藝術在加密領域中占據了很大一部分。NFT藝術與傳統藝術有相似之處,也有完全不同的地方。NFT藝術與傳統藝術一樣,表現了
  • 知識產權可能在元宇宙中“消失”?

    開篇老雅痞先來劃重點:一些公司開始采取積極的方式來保護他們在元宇宙的知識產權。耐克、愛馬仕和米拉麥克斯最近提起訴訟,聲稱NFT侵犯了他們的知識產權。Inside
  • 王老吉啟動元宇宙“吉空間”,HTC發布元宇宙應用VIVERSE

    今日《元宇宙新鮮事》有:王老吉啟動元宇宙“吉空間”;HTC發布元宇宙應用VIVERSE;Meta將在馬德里構建一個元宇宙創新中心;央視網《新聞+》推出系列視頻《聊聊元宇宙
Top 主站蜘蛛池模板: 阿城市| 金坛市| 丁青县| 佛坪县| 饶阳县| 扶风县| 邹城市| 峨眉山市| 南昌县| 台前县| 江津市| 绍兴市| 维西| 香河县| 上犹县| 理塘县| 松桃| 平顺县| 龙岩市| 韶山市| 广东省| 周至县| 云南省| 三台县| 兖州市| 宝山区| 土默特左旗| 樟树市| 抚远县| 肇州县| 磴口县| 木里| 井研县| 兴国县| 民丰县| 万安县| 广河县| 成都市| 青铜峡市| 文昌市| 巴林左旗|