日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

復旦大學AgentGym-RL框架:小模型大智慧,AI智能體學會復雜任務長期規(guī)劃

來源: 責編: 時間:2025-09-23 11:20:44 22觀看
導讀復旦大學研究團隊近期在人工智能訓練領域取得重大突破,開發(fā)出一套名為AgentGym-RL的創(chuàng)新訓練框架。該框架通過模擬人類漸進式學習過程,成功讓僅含70億參數(shù)的小型AI模型在復雜任務中展現(xiàn)出超越千億參數(shù)商業(yè)模型的性能。

復旦大學研究團隊近期在人工智能訓練領域取得重大突破,開發(fā)出一套名為AgentGym-RL的創(chuàng)新訓練框架。該框架通過模擬人類漸進式學習過程,成功讓僅含70億參數(shù)的小型AI模型在復雜任務中展現(xiàn)出超越千億參數(shù)商業(yè)模型的性能。這項成果已發(fā)表在arXiv平臺,開源代碼和數(shù)據(jù)集同步在GitHub公開。9Ma28資訊網(wǎng)——每日最新資訊28at.com

傳統(tǒng)AI訓練存在顯著局限:多數(shù)系統(tǒng)只能處理單次交互的簡單任務,面對需要多步驟規(guī)劃的復雜場景時表現(xiàn)欠佳。研究團隊形象地比喻,現(xiàn)有AI就像只會背書的學生,缺乏真正的理解和創(chuàng)新能力。在需要持續(xù)互動的任務中,這些系統(tǒng)往往因訓練不穩(wěn)定而崩潰,如同初學者同時學習駕駛和導航般手忙腳亂。9Ma28資訊網(wǎng)——每日最新資訊28at.com

AgentGym-RL框架創(chuàng)造性地設計了五大訓練環(huán)境,構建起AI的"虛擬游樂園"。網(wǎng)頁導航環(huán)境模擬真實網(wǎng)站交互,要求AI完成購物、論壇管理等任務;深度搜索環(huán)境訓練信息檢索能力,需整合多個信息源得出結論;數(shù)字游戲環(huán)境采用文本版Minecraft,考驗策略規(guī)劃和資源管理;具身任務環(huán)境通過虛擬空間導航,測試空間推理能力;科學任務環(huán)境則專注實驗設計和數(shù)據(jù)分析。9Ma28資訊網(wǎng)——每日最新資訊28at.com

研究團隊開發(fā)的ScalingInter-RL訓練方法堪稱框架核心。該方法采用漸進式策略,初期限制AI與環(huán)境的交互次數(shù),使其專注掌握基礎技能,如同教練先讓學員在空曠場地熟悉駕駛。隨著訓練深入,逐步增加交互復雜度,鼓勵探索更高級策略。這種"先易后難"的模式有效解決了傳統(tǒng)強化學習中的探索-利用平衡難題。9Ma28資訊網(wǎng)——每日最新資訊28at.com

實驗數(shù)據(jù)顯示,經(jīng)過AgentGym-RL訓練的70億參數(shù)模型性能提升達33.65個百分點。在網(wǎng)頁導航任務中,該模型準確率達26%,超越GPT-4o的16%和Gemini-2.5-Pro的28%。深度搜索任務表現(xiàn)更為突出,取得38.25分的整體得分,接近頂級開源模型DeepSeek-R1-0528的40.25分。在數(shù)字游戲最高難度級別,該模型是少數(shù)獲得非零分數(shù)的系統(tǒng)之一。9Ma28資訊網(wǎng)——每日最新資訊28at.com

研究團隊發(fā)現(xiàn),增加測試時的計算資源能顯著提升模型表現(xiàn)。當交互回合數(shù)從2次增加到30次時,模型準確率穩(wěn)步上升;并行采樣次數(shù)從1次增至64次,成功率提升最高達7.05個百分點。這表明,對于AI智能體而言,戰(zhàn)略性地投入更多計算資源進行推理,比單純增加模型參數(shù)更有效。9Ma28資訊網(wǎng)——每日最新資訊28at.com

算法比較實驗揭示了訓練方法的重要性。GRPO算法在多個任務中表現(xiàn)優(yōu)于REINFORCE++,使用GRPO訓練的30億參數(shù)模型性能甚至超過使用REINFORCE++訓練的70億參數(shù)模型。研究還發(fā)現(xiàn),訓練初期嚴格限制交互次數(shù)能確保穩(wěn)定性,后期逐步放開則有助于學習復雜策略,這種動態(tài)調整策略取得了最佳效果。9Ma28資訊網(wǎng)——每日最新資訊28at.com

案例分析生動展示了訓練成果。在網(wǎng)頁導航任務中,經(jīng)過強化學習的模型遇到"頁面未找到"錯誤時,會主動回退到主頁使用搜索功能,而基礎模型則陷入無效點擊循環(huán)。具身導航任務中,訓練后的模型能系統(tǒng)性探索環(huán)境,遇到阻礙時選擇替代路徑,基礎模型則常在已探索區(qū)域徘徊。9Ma28資訊網(wǎng)——每日最新資訊28at.com

環(huán)境結構對學習效果的影響研究帶來重要啟示。在規(guī)則明確的模擬環(huán)境中,如數(shù)字游戲和科學實驗,強化學習效果最為顯著,模型得分提升幅度接近50個百分點。而在更開放的網(wǎng)頁導航和深度搜索環(huán)境中,提升幅度相對溫和。這表明訓練初期應優(yōu)先選擇結構化環(huán)境,逐步引入復雜場景。9Ma28資訊網(wǎng)——每日最新資訊28at.com

這項研究不僅在技術上取得突破,更體現(xiàn)了方法創(chuàng)新的重要性。通過漸進式訓練和多樣化環(huán)境設計,小規(guī)模模型也能獲得強大能力。開源框架的發(fā)布為全球研究者提供了研究基礎,促進了AI智能體技術的普及。研究顯示,中國在AI基礎研究領域的創(chuàng)新能力正不斷提升,為國際AI社區(qū)貢獻了新的智慧。9Ma28資訊網(wǎng)——每日最新資訊28at.com

對技術細節(jié)感興趣的讀者可訪問項目GitHub頁面獲取完整代碼和數(shù)據(jù)集,或查閱arXiv平臺上的完整論文(編號:arXiv:2509.08755v1)。這項研究將推動AI從簡單問答向真正理解復雜任務、制定長期計劃的智能伙伴發(fā)展,在網(wǎng)頁操作、信息搜索、科學研究等領域展現(xiàn)廣闊應用前景。9Ma28資訊網(wǎng)——每日最新資訊28at.com

   更多>同類資訊Meta實驗室新突破:AI模型開啟"自我對弈"模式,不依賴數(shù)據(jù)也能持續(xù)進化09-23聯(lián)發(fā)科天璣9500首推雙NPU架構,讓AI常駐手機開啟主動服務新體驗09-23DeepSeek-V3.1升級至Terminus版 優(yōu)化語言一致性及Agent能力09-23斯坦福等高校聯(lián)手:用LMEnt套件追蹤AI語言模型知識學習軌跡09-23AI搜索的數(shù)學邊界:當最強大模型遇上"簡單問題"的隱秘困局09-23中科院團隊創(chuàng)新CARVE法:破解AI視覺“分心”難題,助模型精準聚焦09-23Plaud攜三款AI紀要新品入局大陸市場,多模態(tài)交互與長續(xù)航成亮點09-23DeepSeek線上模型升級至V3.1-Terminus,輸出更穩(wěn)Agent能力再提升09-23DeepSeek-V3.1升級至V3.1-Terminus:語言更一致,代理更強大,輸出更穩(wěn)定09-23上海人工智能實驗室牽頭!科學智能戰(zhàn)略科技力量聯(lián)盟正式成立09-23DeepSeek-V3.1-Terminus發(fā)布:修復Bug,編程與搜索智能體能力再升級09-23科學智能戰(zhàn)略科技力量聯(lián)盟成立 共探AI賦能多學科創(chuàng)新發(fā)展路徑09-23中國電信引領6G新突破:首個6G計費項目獲3GPP正式批準09-23DeepSeek-V3.1-Terminus更新登場!修復關鍵Bug,Agent能力躍升,V4還會遠嗎?09-23百度智能云千帆開源Qianfan-VL視覺模型,多尺寸適配,全自研芯片賦能高效計算09-23點擊查看更多 +全站最新?9月狹義乘用車零售預計達215萬輛,新能源車滲透率或超58%引關注??9月狹義乘用車零售預計達215萬輛,新能源車滲透率或超58%引關注?6.88萬起極狐T1實測:空間越級配置足,小電車市場殺出“全能王”?6.88萬起極狐T1實測:空間越級配置足,小電車市場殺出“全能王”??雷軍官宣小米17系列9月25日發(fā)布,盧偉冰稱產(chǎn)品力跨代升級且對標iPhone17??雷軍官宣小米17系列9月25日發(fā)布,盧偉冰稱產(chǎn)品力跨代升級且對標iPhone17??小米17系列9月25日發(fā)布在即,雷軍年度演講《改變》將揭秘芯片與汽車故事??小米17系列9月25日發(fā)布在即,雷軍年度演講《改變》將揭秘芯片與汽車故事??雷軍宣布:9月25日小米17系列發(fā)布,同期將舉辦第6次年度演講聊芯片與汽車故事??雷軍宣布:9月25日小米17系列發(fā)布,同期將舉辦第6次年度演講聊芯片與汽車故事?小米SU7標準版11.7萬輛召回:OTA升級背后的智能駕駛安全與行業(yè)新挑戰(zhàn)小米SU7標準版11.7萬輛召回:OTA升級背后的智能駕駛安全與行業(yè)新挑戰(zhàn)熱門內容
  • 寒武紀回應訂單不實傳聞:產(chǎn)品多行業(yè)部署,存貨增長因云端備貨
  • 熱度攀升!千億科技龍頭頻獲機構調研,業(yè)務增長透露哪些行業(yè)新動向?
  • 蘋果加速AI布局,或收購兩家法國AI初創(chuàng)企業(yè)
  • 蘋果秋季發(fā)布會亮相iPhone 17系列:"史上最薄"Air登場,Pro Max 2TB版定價17999元
  • 蘋果加速布局中國市場!Apple Intelligence和新版Siri或年底至明年上線
  • ?小米16系列或提前登場,首發(fā)驍龍8 Elite Gen5,9月機圈大戰(zhàn)一觸即發(fā)?
  • 均勝電子新品亮相:AI頭部總成、全域控制器等完善機器人產(chǎn)品矩陣
  • 國金證券:A股第三輪重估腳步臨近,三類資產(chǎn)投資方向值得關注
  • 蘋果AI布局加速,或將斥巨資收購歐洲兩大AI初創(chuàng)企業(yè)
  • 18歲涂津豪:從DeepSeek實習生到Nature封面作者,以少年之力叩響AI新章
  • WAVE SUMMIT大會新動態(tài):文心大模型X1.1上線,多項能力顯著躍升
  • 華為智能手表登頂全球,蘋果需直面挑戰(zhàn)求變革
  • ?字節(jié)跳動千人芯片團隊架構調整,轉至新加坡子公司Picoheart引關注?
  • 華為Mate系列2025年選購指南:三款高性價比機型技術解析與場景適配
  • ${亞馬遜發(fā)布"2025產(chǎn)品創(chuàng)新出海品牌五十強":出口跨境電商規(guī)模達2.15萬億
本欄最新第22屆東博會AI元素亮眼:數(shù)字智能體引路 機器人炫技展風采第22屆東博會AI元素亮眼:數(shù)字智能體引路 機器人炫技展風采AI云競爭下半場:華為以超節(jié)點、企業(yè)Agent等破局,誰能領跑產(chǎn)業(yè)?AI云競爭下半場:華為以超節(jié)點、企業(yè)Agent等破局,誰能領跑產(chǎn)業(yè)?2025網(wǎng)安周:每日互動劉宇談AI時代,知識安全成關鍵,共筑數(shù)字新未來2025網(wǎng)安周:每日互動劉宇談AI時代,知識安全成關鍵,共筑數(shù)字新未來中國大模型DeepSeek首登Nature封面,R1訓練成本僅約208萬引關注中國大模型DeepSeek首登Nature封面,R1訓練成本僅約208萬引關注華為全聯(lián)接大會2025啟幕,發(fā)布全球最強算力超節(jié)點與集群華為全聯(lián)接大會2025啟幕,發(fā)布全球最強算力超節(jié)點與集群有鹿機器人+連合直租:以智能租賃模式,開啟高端場景清潔新未來有鹿機器人+連合直租:以智能租賃模式,開啟高端場景清潔新未來

本文鏈接:http://www.www897cc.com/showinfo-45-27964-0.html復旦大學AgentGym-RL框架:小模型大智慧,AI智能體學會復雜任務長期規(guī)劃

聲明:本網(wǎng)頁內容旨在傳播知識,若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: Orange Research DivMerge技術:智能拼裝AI模型,解鎖多任務處理新境界

下一篇: Meta實驗室新突破:AI模型開啟"自我對弈"模式,不依賴數(shù)據(jù)也能持續(xù)進化

標簽:
  • 熱門焦點
Top 日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不
国产一区二区三区四区hd| 国产精品久久久久影院亚瑟| 免费成人网www| 好吊妞这里只有精品| 国产亚洲一区二区精品| 亚洲国产成人porn| 亚洲午夜精品在线| 久久一区二区三区国产精品| 欧美日韩大片一区二区三区| 国产欧美一区二区精品仙草咪| 在线看视频不卡| 一本一本久久a久久精品综合妖精 一本一本久久a久久精品综合麻豆 | 国产一区视频网站| 91久久久亚洲精品| 亚洲女ⅴideoshd黑人| 久久亚洲免费| 国产精品久久久久aaaa九色| 精品动漫3d一区二区三区| 一区二区高清在线观看| 久久久久九九视频| 欧美日韩精品免费观看视一区二区 | 久久久久久999| 欧美va日韩va| 国产精品午夜国产小视频| 亚洲国产一区二区三区青草影视| 亚洲资源在线观看| 欧美高清视频| 韩日精品在线| 亚洲免费在线| 欧美剧在线免费观看网站| 国产一级精品aaaaa看| 夜夜狂射影院欧美极品| 久久亚洲午夜电影| 国产欧美精品在线播放| av不卡在线看| 免费一级欧美片在线观看| 国产区精品在线观看| 亚洲视频在线观看免费| 欧美激情1区2区3区| 国内在线观看一区二区三区| 亚洲一区二区不卡免费| 欧美看片网站| 亚洲国产精品成人综合| 久久精品亚洲精品国产欧美kt∨| 欧美三级视频在线播放| 亚洲日本欧美天堂| 免费一级欧美片在线播放| 国产一区二三区| 亚洲欧美日韩专区| 欧美视频一区二区三区四区| 最新中文字幕亚洲| 久久综合色天天久久综合图片| 国产欧美日韩视频在线观看| 亚洲一区二区免费看| 欧美日韩国产专区| 亚洲精品国产精品国自产观看浪潮| 久久久亚洲精品一区二区三区| 国产日产欧美一区| 午夜精品成人在线| 国产精品v欧美精品∨日韩| 亚洲精品久久久久久久久| 免费精品视频| 在线免费观看成人网| 久久久久久9999| 黄色在线成人| 久久久久国产精品www| 国产一区二区三区久久久久久久久 | 国产欧美在线看| 亚洲欧美日韩系列| 国产精品日日做人人爱| 亚洲一区二区免费| 国产精品国产三级国产专播精品人 | 国产午夜精品在线| 午夜精品在线观看| 国产精品视频福利| 欧美一区二区播放| 国产午夜精品在线观看| 欧美在线黄色| 国外成人在线视频| 久久在线免费视频| 亚洲国产日韩在线| 欧美极品在线播放| 99在线精品视频| 欧美婷婷六月丁香综合色| 一区二区三区视频在线观看| 国产精品av免费在线观看| 亚洲一区在线看| 国产乱码精品| 久久久国产精品一区二区中文 | 亚洲大片在线观看| 欧美激情精品久久久久久蜜臀 | 99视频精品全部免费在线| 欧美日韩免费观看一区| 亚洲色图综合久久| 国产精品免费区二区三区观看| 亚洲自拍偷拍一区| 国产亚洲一区在线播放| 久久综合网络一区二区| 亚洲精品乱码久久久久久蜜桃91| 欧美日韩免费高清| 亚洲欧美伊人| 在线观看日韩专区| 欧美精品手机在线| 亚洲视频一区二区在线观看| 国产精品自拍视频| 久久久成人网| 亚洲精品久久嫩草网站秘色| 欧美视频一区二区三区在线观看| 午夜精品三级视频福利| 亚洲成人在线免费| 欧美日韩一区二区三区四区五区| 亚洲欧美色婷婷| 在线色欧美三级视频| 欧美日本不卡| 羞羞视频在线观看欧美| 伊人伊人伊人久久| 欧美三级免费| 久久riav二区三区| 亚洲日本精品国产第一区| 国产精品日韩一区二区| 久久综合久久久久88| 在线视频你懂得一区| 国产亚洲免费的视频看| 欧美激情一二三区| 欧美一级理论性理论a| 亚洲国产婷婷香蕉久久久久久| 国产精品xxxxx| 久久中文在线| 亚洲影院色无极综合| 在线成人激情| 国产精品高潮呻吟久久| 免费看亚洲片| 性色av一区二区三区在线观看 | 午夜亚洲精品| 亚洲日本视频| 国产日韩欧美二区| 欧美精品麻豆| 久久成人综合网| 99成人精品| 精品成人在线观看| 国产精品久久午夜夜伦鲁鲁| 免费成人高清在线视频| 午夜精品久久久久久久白皮肤 | 亚洲免费视频观看| 亚洲高清自拍| 国产伦精品一区二区三区四区免费| 欧美暴力喷水在线| 欧美在线网址| 亚洲性图久久| 亚洲品质自拍| 国产亚洲福利| 国产精品sm| 欧美大片国产精品| 久久精品成人一区二区三区| 一区二区三区蜜桃网| 亚洲高清免费| 国产在线精品自拍| 国产精品免费aⅴ片在线观看| 欧美黄色一区| 久久天堂精品| 久久aⅴ国产紧身牛仔裤| 国产精品99久久久久久白浆小说 | 亚洲破处大片| 精东粉嫩av免费一区二区三区| 国产精品久久福利| 欧美激情综合色综合啪啪| 久久久久欧美| 欧美在线短视频| 亚洲免费中文字幕| 亚洲少妇自拍| 9色porny自拍视频一区二区| 亚洲国产日韩美| 影音先锋日韩资源| 国产综合欧美| 国产日韩欧美中文| 国产精品视频1区| 国产精品家庭影院| 欧美日韩在线免费观看| 欧美第一黄色网| 另类综合日韩欧美亚洲| 久久久久久9| 久久久久久久久久久成人| 欧美一区二区三区在线| 亚洲欧美福利一区二区| 亚洲视频一二区| 亚洲香蕉在线观看| 亚洲午夜伦理| 亚洲一区欧美| 亚洲综合导航| 亚洲欧美激情一区二区| 亚洲图片欧洲图片av| 一区二区三区日韩精品| 一区二区三区日韩| 亚洲一二三区在线观看| 亚洲私人影院| 亚洲欧美日韩专区| 欧美亚洲综合在线| 久久国产精品一区二区| 久久精品国产91精品亚洲| 久久九九热免费视频| 久久久久久久久岛国免费| 久久久久亚洲综合| 男男成人高潮片免费网站| 另类尿喷潮videofree|