當前位置：首頁 > 元宇宙 > AI

復旦大學AgentGym-RL框架：小模型大智慧，AI智能體學會復雜任務長期規(guī)劃

來源：責編：時間：2025-09-23 11:20:44 22觀看

導讀復旦大學研究團隊近期在人工智能訓練領域取得重大突破，開發(fā)出一套名為AgentGym-RL的創(chuàng)新訓練框架。該框架通過模擬人類漸進式學習過程，成功讓僅含70億參數(shù)的小型AI模型在復雜任務中展現(xiàn)出超越千億參數(shù)商業(yè)模型的性能。

復旦大學研究團隊近期在人工智能訓練領域取得重大突破，開發(fā)出一套名為AgentGym-RL的創(chuàng)新訓練框架。該框架通過模擬人類漸進式學習過程，成功讓僅含70億參數(shù)的小型AI模型在復雜任務中展現(xiàn)出超越千億參數(shù)商業(yè)模型的性能。這項成果已發(fā)表在arXiv平臺，開源代碼和數(shù)據(jù)集同步在GitHub公開。

傳統(tǒng)AI訓練存在顯著局限：多數(shù)系統(tǒng)只能處理單次交互的簡單任務，面對需要多步驟規(guī)劃的復雜場景時表現(xiàn)欠佳。研究團隊形象地比喻，現(xiàn)有AI就像只會背書的學生，缺乏真正的理解和創(chuàng)新能力。在需要持續(xù)互動的任務中，這些系統(tǒng)往往因訓練不穩(wěn)定而崩潰，如同初學者同時學習駕駛和導航般手忙腳亂。

AgentGym-RL框架創(chuàng)造性地設計了五大訓練環(huán)境，構建起AI的"虛擬游樂園"。網(wǎng)頁導航環(huán)境模擬真實網(wǎng)站交互，要求AI完成購物、論壇管理等任務；深度搜索環(huán)境訓練信息檢索能力，需整合多個信息源得出結論；數(shù)字游戲環(huán)境采用文本版Minecraft，考驗策略規(guī)劃和資源管理；具身任務環(huán)境通過虛擬空間導航，測試空間推理能力；科學任務環(huán)境則專注實驗設計和數(shù)據(jù)分析。

研究團隊開發(fā)的ScalingInter-RL訓練方法堪稱框架核心。該方法采用漸進式策略，初期限制AI與環(huán)境的交互次數(shù)，使其專注掌握基礎技能，如同教練先讓學員在空曠場地熟悉駕駛。隨著訓練深入，逐步增加交互復雜度，鼓勵探索更高級策略。這種"先易后難"的模式有效解決了傳統(tǒng)強化學習中的探索-利用平衡難題。

實驗數(shù)據(jù)顯示，經(jīng)過AgentGym-RL訓練的70億參數(shù)模型性能提升達33.65個百分點。在網(wǎng)頁導航任務中，該模型準確率達26%，超越GPT-4o的16%和Gemini-2.5-Pro的28%。深度搜索任務表現(xiàn)更為突出，取得38.25分的整體得分，接近頂級開源模型DeepSeek-R1-0528的40.25分。在數(shù)字游戲最高難度級別，該模型是少數(shù)獲得非零分數(shù)的系統(tǒng)之一。

研究團隊發(fā)現(xiàn)，增加測試時的計算資源能顯著提升模型表現(xiàn)。當交互回合數(shù)從2次增加到30次時，模型準確率穩(wěn)步上升；并行采樣次數(shù)從1次增至64次，成功率提升最高達7.05個百分點。這表明，對于AI智能體而言，戰(zhàn)略性地投入更多計算資源進行推理，比單純增加模型參數(shù)更有效。

算法比較實驗揭示了訓練方法的重要性。GRPO算法在多個任務中表現(xiàn)優(yōu)于REINFORCE++，使用GRPO訓練的30億參數(shù)模型性能甚至超過使用REINFORCE++訓練的70億參數(shù)模型。研究還發(fā)現(xiàn)，訓練初期嚴格限制交互次數(shù)能確保穩(wěn)定性，后期逐步放開則有助于學習復雜策略，這種動態(tài)調整策略取得了最佳效果。

案例分析生動展示了訓練成果。在網(wǎng)頁導航任務中，經(jīng)過強化學習的模型遇到"頁面未找到"錯誤時，會主動回退到主頁使用搜索功能，而基礎模型則陷入無效點擊循環(huán)。具身導航任務中，訓練后的模型能系統(tǒng)性探索環(huán)境，遇到阻礙時選擇替代路徑，基礎模型則常在已探索區(qū)域徘徊。

環(huán)境結構對學習效果的影響研究帶來重要啟示。在規(guī)則明確的模擬環(huán)境中，如數(shù)字游戲和科學實驗，強化學習效果最為顯著，模型得分提升幅度接近50個百分點。而在更開放的網(wǎng)頁導航和深度搜索環(huán)境中，提升幅度相對溫和。這表明訓練初期應優(yōu)先選擇結構化環(huán)境，逐步引入復雜場景。

這項研究不僅在技術上取得突破，更體現(xiàn)了方法創(chuàng)新的重要性。通過漸進式訓練和多樣化環(huán)境設計，小規(guī)模模型也能獲得強大能力。開源框架的發(fā)布為全球研究者提供了研究基礎，促進了AI智能體技術的普及。研究顯示，中國在AI基礎研究領域的創(chuàng)新能力正不斷提升，為國際AI社區(qū)貢獻了新的智慧。

對技術細節(jié)感興趣的讀者可訪問項目GitHub頁面獲取完整代碼和數(shù)據(jù)集，或查閱arXiv平臺上的完整論文（編號：arXiv:2509.08755v1）。這項研究將推動AI從簡單問答向真正理解復雜任務、制定長期計劃的智能伙伴發(fā)展，在網(wǎng)頁操作、信息搜索、科學研究等領域展現(xiàn)廣闊應用前景。

更多>同類資訊Meta實驗室新突破：AI模型開啟"自我對弈"模式，不依賴數(shù)據(jù)也能持續(xù)進化09-23聯(lián)發(fā)科天璣9500首推雙NPU架構，讓AI常駐手機開啟主動服務新體驗09-23DeepSeek-V3.1升級至Terminus版優(yōu)化語言一致性及Agent能力09-23斯坦福等高校聯(lián)手：用LMEnt套件追蹤AI語言模型知識學習軌跡09-23AI搜索的數(shù)學邊界：當最強大模型遇上"簡單問題"的隱秘困局09-23中科院團隊創(chuàng)新CARVE法：破解AI視覺“分心”難題，助模型精準聚焦09-23Plaud攜三款AI紀要新品入局大陸市場，多模態(tài)交互與長續(xù)航成亮點09-23DeepSeek線上模型升級至V3.1-Terminus，輸出更穩(wěn)Agent能力再提升09-23DeepSeek-V3.1升級至V3.1-Terminus：語言更一致，代理更強大，輸出更穩(wěn)定09-23上海人工智能實驗室牽頭！科學智能戰(zhàn)略科技力量聯(lián)盟正式成立09-23DeepSeek-V3.1-Terminus發(fā)布：修復Bug，編程與搜索智能體能力再升級09-23科學智能戰(zhàn)略科技力量聯(lián)盟成立共探AI賦能多學科創(chuàng)新發(fā)展路徑09-23中國電信引領6G新突破：首個6G計費項目獲3GPP正式批準09-23DeepSeek-V3.1-Terminus更新登場！修復關鍵Bug，Agent能力躍升，V4還會遠嗎？09-23百度智能云千帆開源Qianfan-VL視覺模型，多尺寸適配，全自研芯片賦能高效計算09-23點擊查看更多 +全站最新

?9月狹義乘用車零售預計達215萬輛，新能源車滲透率或超58%引關注?

6.88萬起極狐T1實測：空間越級配置足，小電車市場殺出“全能王”？

?雷軍官宣小米17系列9月25日發(fā)布，盧偉冰稱產(chǎn)品力跨代升級且對標iPhone17?

?小米17系列9月25日發(fā)布在即，雷軍年度演講《改變》將揭秘芯片與汽車故事?

?雷軍宣布：9月25日小米17系列發(fā)布，同期將舉辦第6次年度演講聊芯片與汽車故事?

小米SU7標準版11.7萬輛召回：OTA升級背后的智能駕駛安全與行業(yè)新挑戰(zhàn)熱門內容

寒武紀回應訂單不實傳聞：產(chǎn)品多行業(yè)部署，存貨增長因云端備貨
熱度攀升！千億科技龍頭頻獲機構調研，業(yè)務增長透露哪些行業(yè)新動向？
蘋果加速AI布局，或收購兩家法國AI初創(chuàng)企業(yè)
蘋果秋季發(fā)布會亮相iPhone 17系列："史上最薄"Air登場，Pro Max 2TB版定價17999元
蘋果加速布局中國市場！Apple Intelligence和新版Siri或年底至明年上線
?小米16系列或提前登場，首發(fā)驍龍8 Elite Gen5，9月機圈大戰(zhàn)一觸即發(fā)?
均勝電子新品亮相：AI頭部總成、全域控制器等完善機器人產(chǎn)品矩陣
國金證券：A股第三輪重估腳步臨近，三類資產(chǎn)投資方向值得關注
蘋果AI布局加速，或將斥巨資收購歐洲兩大AI初創(chuàng)企業(yè)
18歲涂津豪：從DeepSeek實習生到Nature封面作者，以少年之力叩響AI新章
WAVE SUMMIT大會新動態(tài)：文心大模型X1.1上線，多項能力顯著躍升
華為智能手表登頂全球，蘋果需直面挑戰(zhàn)求變革
?字節(jié)跳動千人芯片團隊架構調整，轉至新加坡子公司Picoheart引關注?
華為Mate系列2025年選購指南：三款高性價比機型技術解析與場景適配
${亞馬遜發(fā)布"2025產(chǎn)品創(chuàng)新出海品牌五十強"：出口跨境電商規(guī)模達2.15萬億

本欄最新

第22屆東博會AI元素亮眼：數(shù)字智能體引路機器人炫技展風采

AI云競爭下半場：華為以超節(jié)點、企業(yè)Agent等破局，誰能領跑產(chǎn)業(yè)？

2025網(wǎng)安周：每日互動劉宇談AI時代，知識安全成關鍵，共筑數(shù)字新未來

中國大模型DeepSeek首登Nature封面，R1訓練成本僅約208萬引關注

華為全聯(lián)接大會2025啟幕，發(fā)布全球最強算力超節(jié)點與集群

有鹿機器人+連合直租：以智能租賃模式，開啟高端場景清潔新未來

本文鏈接：http://www.www897cc.com/showinfo-45-27964-0.html復旦大學AgentGym-RL框架：小模型大智慧，AI智能體學會復雜任務長期規(guī)劃

聲明：本網(wǎng)頁內容旨在傳播知識，若有侵權等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： Orange Research DivMerge技術：智能拼裝AI模型，解鎖多任務處理新境界

下一篇： Meta實驗室新突破：AI模型開啟"自我對弈"模式，不依賴數(shù)據(jù)也能持續(xù)進化

標簽：

熱門焦點

大廠元宇宙，又菜又愛玩

撰文 | 吳先之編輯 | 王潘當下所有大廠推出的元宇宙產(chǎn)品，所能帶來的沉浸式體驗并不多，好在國內外科技巨頭在bug方面都處在同一水平線。以Meta為例，由于VR頭顯設
冰墩墩的NFT暴漲千倍？真相則是價格暴跌、成交遇冷

《區(qū)塊鏈日報》記者查證，近日來冰墩墩數(shù)字藏品交易數(shù)量出現(xiàn)大幅下滑，而所謂的暴漲千倍更是有價無市的自嗨。昨日，北京冬奧會正式閉幕。在這屆冬奧會上，吉祥物“冰
2022年元宇宙系列報告：UGC當?shù)溃琗R帶來新交互體驗

UGC作為元宇宙的主要內容創(chuàng)作模式，已經(jīng)越來越多的呈現(xiàn)于游戲、娛樂、社交、傳媒等方面，UGC模式勾勒了元宇宙的邊界，現(xiàn)今元宇宙UGC模式的主要呈現(xiàn)方式以元宇宙概念
Shiba Inu布局元宇宙走出Meme局限

以「狗狗幣殺手」成名的Shiba Inu（SHIB）在人們的印象中始終有著濃厚的Meme（模因惡搞）烙印，但它似乎一直在嘗試突破這種局限。建立起一個龐大的粉絲社區(qū)后，Shiba Inu
Terra鏈上TVL躍升至第二

據(jù)DefiLlama數(shù)據(jù)顯示，當前,Terra鏈上應用鎖倉的加密資產(chǎn)價值（TVL）為172.1億美元，在公鏈板塊中已躍升至第二，超越了幣安智能鏈TVL的118億美元，TVL排名居首的仍為以太
韓國流行音樂巨頭SM與Binance達成NFT合作伙伴關系

韓國流行音樂巨頭 SM Entertainment 與加密貨幣交易所 Binance（幣安）達成“Play2Create”NFT 合作伙伴關系。SM 娛樂一直在投資打造元宇宙該公司于 2020 年 10
元宇宙不完全是想出來的，而是實打實做出來的

沈陽強調，元宇宙不完全是想出來的，而是靠實打實做出來的；互聯(lián)網(wǎng)向三維化升級是已經(jīng)明確的大方向，這意味著大量的資金和技術會持續(xù)涌入。跨入2022年，元宇宙并沒有“
電影工業(yè)巨頭好萊塢計劃進軍元宇宙，將會對行業(yè)帶來什么影響？

元宇宙聽起來像不像是科幻小說中出現(xiàn)的術語？事實確實如此。小說家尼爾·斯蒂芬森在1992年的小說《雪崩》中首次用這個詞來定義了一個多連接的虛擬宇宙，它能夠模
售出6930萬美元的NFT已經(jīng)過去一年，NFT如今是否已成為主流？

Everydays: the First 5000 Days/Beeple去年三月，一件藝術品被著名拍賣行佳士得以6930萬美元的高價售出。而讓人們感到震驚的是，這個拍賣作品不是出自哪位藝術大

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

復旦大學AgentGym-RL框架：小模型大智慧，AI智能體學會復雜任務長期規(guī)劃

大廠元宇宙，又菜又愛玩

冰墩墩的NFT暴漲千倍？真相則是價格暴跌、成交遇冷

2022年元宇宙系列報告：UGC當?shù)溃琗R帶來新交互體驗

Shiba Inu布局元宇宙走出Meme局限

Terra鏈上TVL躍升至第二

韓國流行音樂巨頭SM與Binance達成NFT合作伙伴關系

元宇宙不完全是想出來的，而是實打實做出來的

電影工業(yè)巨頭好萊塢計劃進軍元宇宙，將會對行業(yè)帶來什么影響？

售出6930萬美元的NFT已經(jīng)過去一年，NFT如今是否已成為主流？

最新推薦

【量子位】虛擬數(shù)字人深度產(chǎn)業(yè)報告 | 元宇宙Meta洞見

國內涌現(xiàn)70余家數(shù)字藏品平臺：合規(guī)、流量與利潤在博弈

借VR產(chǎn)業(yè)東風，江西搶灘布局“元宇宙”

Meta 在衰落嗎？

新聞業(yè)在元宇宙的現(xiàn)狀和未來

多位全國政協(xié)委員提交元宇宙提案，國金證券稱元宇宙仍處初期投資階段

猜你喜歡

熱門推薦

相關資訊