人工智能領(lǐng)域迎來重要突破,通義DeepResearch正式開源發(fā)布,標(biāo)志著AI研究能力從“對(duì)話交互”向“深度探索”的跨越式發(fā)展。該模型在Humanity's Last Exam、BrowseComp、GAIA等國際權(quán)威深度研究基準(zhǔn)測(cè)試中均取得最優(yōu)成績,綜合性能與海外旗艦?zāi)P统制缴踔脸剑瑫r(shí)以完全開源的方式提供模型、框架及解決方案。
針對(duì)海外閉源模型使用成本高、調(diào)用受限等問題,研發(fā)團(tuán)隊(duì)通過創(chuàng)新技術(shù)路徑實(shí)現(xiàn)突破。30B參數(shù)規(guī)模的tongyi DeepResearch在保持輕量化的同時(shí),通過多階段數(shù)據(jù)策略和強(qiáng)化學(xué)習(xí)優(yōu)化,在復(fù)雜推理任務(wù)中展現(xiàn)出顯著優(yōu)勢(shì)。其核心技術(shù)覆蓋數(shù)據(jù)合成、增量預(yù)訓(xùn)練、有監(jiān)督微調(diào)及強(qiáng)化學(xué)習(xí)全流程,形成端到端的智能體訓(xùn)練范式。
數(shù)據(jù)構(gòu)建方面,團(tuán)隊(duì)開發(fā)出全自動(dòng)化合成方案。通過知識(shí)圖譜隨機(jī)游走、表格數(shù)據(jù)融合等技術(shù),從真實(shí)網(wǎng)站提取結(jié)構(gòu)化信息,并設(shè)計(jì)“原子操作”系統(tǒng)提升問題復(fù)雜度。特別在決策動(dòng)作合成中,將多步驟軌跡重構(gòu)為決策過程,有效增強(qiáng)模型規(guī)劃能力。該方案生成的“博士級(jí)”研究問題,可模擬多學(xué)科交叉推理場(chǎng)景,推動(dòng)模型能力逼近人類專家水平。
模型架構(gòu)創(chuàng)新包含雙重推理模式:標(biāo)準(zhǔn)ReAct模式支持128K長上下文交互,通過“思考-行動(dòng)-觀察”循環(huán)處理常規(guī)任務(wù);深度模式(Heavy Mode)則采用IterResearch范式,將復(fù)雜任務(wù)分解為多個(gè)研究輪次。每輪僅保留關(guān)鍵信息構(gòu)建精簡工作空間,通過“綜合與重構(gòu)”迭代保持認(rèn)知焦點(diǎn),避免傳統(tǒng)方法中的信息過載問題。團(tuán)隊(duì)還提出Research-Synthesis框架,允許多智能體并行探索后整合結(jié)論,顯著提升答案準(zhǔn)確性。
訓(xùn)練體系實(shí)現(xiàn)全鏈路革新,從Agentic持續(xù)預(yù)訓(xùn)練(CPT)到拒絕微調(diào)(RFT)再到強(qiáng)化學(xué)習(xí)(RL),形成閉環(huán)優(yōu)化系統(tǒng)。在RL階段,團(tuán)隊(duì)基于GRPO算法進(jìn)行定制優(yōu)化,采用on-policy訓(xùn)練范式確保學(xué)習(xí)信號(hào)與模型能力精準(zhǔn)匹配。通過token級(jí)策略梯度損失、留一法優(yōu)勢(shì)估計(jì)等技術(shù),有效降低訓(xùn)練方差。針對(duì)負(fù)樣本干擾問題,開發(fā)選擇性過濾機(jī)制,結(jié)合大批量訓(xùn)練維持監(jiān)督信號(hào)穩(wěn)定性。
基礎(chǔ)設(shè)施層面構(gòu)建三大支撐系統(tǒng):仿真訓(xùn)練環(huán)境利用離線維基百科和自定義工具套件,降低對(duì)實(shí)時(shí)Web API的依賴;穩(wěn)定工具沙盒通過緩存、重試和飽和響應(yīng)機(jī)制,確保工具調(diào)用的可靠性;自動(dòng)數(shù)據(jù)管理系統(tǒng)實(shí)現(xiàn)訓(xùn)練動(dòng)態(tài)指導(dǎo)下的實(shí)時(shí)優(yōu)化,形成數(shù)據(jù)生成與模型訓(xùn)練的正向循環(huán)。異步強(qiáng)化學(xué)習(xí)框架支持多智能體并行交互,顯著提升訓(xùn)練效率。
技術(shù)落地已產(chǎn)生實(shí)際價(jià)值。與高德合作的出行智能體“高德小德”,在地圖導(dǎo)航和本地生活場(chǎng)景中實(shí)現(xiàn)復(fù)雜查詢的垂類應(yīng)用,成為高德V16版本的核心功能。法律領(lǐng)域推出的“通義法睿”智能體,集成案例檢索、合同審查、文書起草等功能,通過迭代規(guī)劃技術(shù)實(shí)現(xiàn)多步推理,在答案質(zhì)量、案例引用、法條匹配等維度達(dá)到行業(yè)領(lǐng)先水平。
研發(fā)團(tuán)隊(duì)同步發(fā)布六篇技術(shù)報(bào)告,詳細(xì)闡述數(shù)據(jù)合成策略、強(qiáng)化學(xué)習(xí)優(yōu)化、多智能體協(xié)作等關(guān)鍵技術(shù)。開源社區(qū)已上線30B參數(shù)規(guī)模的tongyi DeepResearch模型,配套提供框架代碼和訓(xùn)練方案。此前半年間,團(tuán)隊(duì)保持每月發(fā)布技術(shù)報(bào)告的節(jié)奏,持續(xù)推動(dòng)深度研究智能體領(lǐng)域的技術(shù)演進(jìn)。
更多>同類資訊
宇樹科技杜鑫峰:機(jī)器人從文娛到工業(yè),在電網(wǎng)儲(chǔ)能等場(chǎng)景展身手09-18
DeepSeek發(fā)布嚴(yán)正聲明:警惕不法分子冒用名義開展“算力租賃”“融資”詐騙09-18
DeepSeek登《Nature》封面:梁文鋒團(tuán)隊(duì)以低成本創(chuàng)新,開啟AI推理革命新篇09-18
華為徐直軍:Atlas 950超節(jié)點(diǎn)算力卓越,多項(xiàng)指標(biāo)遠(yuǎn)超英偉達(dá)同期產(chǎn)品09-18
藍(lán)思科技攜手Rokid打造智能眼鏡,亮相東博會(huì)展現(xiàn)科技文化融合魅力由藍(lán)思科技與Rokid共同開發(fā)的Rokid Glasses智能眼鏡作為大會(huì)指定貴賓禮品正式亮相,展現(xiàn)了中國智能制造的技術(shù)水平與創(chuàng)新實(shí)力。產(chǎn)品采用衍射光波導(dǎo)顯示技術(shù),在保持高透光率的同時(shí)實(shí)現(xiàn)高清晰度顯示,并搭載…09-18
類腦研究新突破:解鎖大腦奧秘,推動(dòng)人工智能邁向“自我思考”時(shí)代復(fù)旦大學(xué)類腦智能科學(xué)與技術(shù)研究院院長馮建峰曾介紹:“現(xiàn)在的人工智能,仍停滯于機(jī)器的概念。在這里,馮建峰和諸多科研團(tuán)隊(duì)正在破解一個(gè)個(gè)“腦奧秘”:比如,研究發(fā)現(xiàn),人腦前額葉和枕葉區(qū)的灰質(zhì)體積越小,多動(dòng)癥的癥狀越嚴(yán)…09-18
技術(shù)革新與政策助力雙輪驅(qū)動(dòng):倉儲(chǔ)機(jī)器人重塑物流產(chǎn)業(yè)新生態(tài)同期發(fā)布的《“十四五”機(jī)器人產(chǎn)業(yè)發(fā)展規(guī)劃》,更是明確將提高產(chǎn)業(yè)創(chuàng)新能力、夯實(shí)產(chǎn)業(yè)發(fā)展基礎(chǔ)、增加高端產(chǎn)品供給等作為主要任務(wù);在“機(jī)器人+”應(yīng)用行動(dòng)中,提出要深耕倉儲(chǔ)物流等重點(diǎn)行業(yè)的應(yīng)用;在機(jī)器人創(chuàng)新產(chǎn)品發(fā)展行…09-18
宇樹科技杜鑫峰:機(jī)器人“進(jìn)廠打工”成趨勢(shì),數(shù)據(jù)采集難題待解9 月 18 日消息,據(jù)每日經(jīng)濟(jì)新聞今天報(bào)道,2025 世界儲(chǔ)能大會(huì)今天在寧德開幕,其中宇樹科技副總經(jīng)理杜鑫峰在大會(huì)上發(fā)表演講。 杜鑫峰表示,宇樹科技的機(jī)器人現(xiàn)在廣泛應(yīng)用于文娛表演方面,同時(shí)在工業(yè)巡…09-18
北自科技攜手星動(dòng)紀(jì)元:人形機(jī)器人開啟智能物流新時(shí)代探索之旅星動(dòng)紀(jì)元有清華技術(shù)基因,陳建宇教授團(tuán)隊(duì)在研發(fā)上實(shí)力強(qiáng)勁;北自科技則具備場(chǎng)景落地能力,雙方結(jié)合能將技術(shù)與應(yīng)用深度融合,實(shí)現(xiàn)人形機(jī)器人技術(shù)在物流工業(yè)場(chǎng)景中的落地。 陳建宇:星動(dòng)紀(jì)元與北自科技的技術(shù)協(xié)同,將探索和挖…09-18
華為發(fā)布靈衢互聯(lián)協(xié)議與系列超節(jié)點(diǎn),引領(lǐng)AI算力基礎(chǔ)設(shè)施新變革09-18ICPC總決賽AI大放異彩!GPT-5組合滿分奪冠,人類賽場(chǎng)角逐第三席位09-18微盟集團(tuán)獲2億美金長線投資,聚焦AI研發(fā)與出海,CEO展望全球科技新篇章09-18DeepSeek登《Nature》封面引關(guān)注 梁文鋒帶隊(duì)回應(yīng)爭議 開啟AI推理新征程09-18華為徐直軍:Atlas 950超節(jié)點(diǎn)算力強(qiáng)勁,多項(xiàng)指標(biāo)遠(yuǎn)超英偉達(dá)同類產(chǎn)品09-18
?我國科研團(tuán)隊(duì)攻克難關(guān) 研發(fā)“神經(jīng)蠕蟲”電極開啟生物電子接口新范式?
濰坊青州云門山景區(qū):重載無人機(jī)助力施工 突破地形難題提速增效
技術(shù)革新與政策助力雙輪驅(qū)動(dòng):倉儲(chǔ)機(jī)器人重塑物流產(chǎn)業(yè)新生態(tài)
宇樹科技杜鑫峰:機(jī)器人“進(jìn)廠打工”成趨勢(shì),數(shù)據(jù)采集難題待解
北自科技攜手星動(dòng)紀(jì)元:人形機(jī)器人開啟智能物流新時(shí)代探索之旅
南京浦口中專學(xué)校新設(shè)無人機(jī)專業(yè),產(chǎn)教融合助學(xué)子逐夢(mèng)低空藍(lán)天熱門內(nèi)容
北自科技攜手星動(dòng)紀(jì)元:人形機(jī)器人開啟智能物流新時(shí)代探索之旅
華為發(fā)布靈衢互聯(lián)協(xié)議與系列超節(jié)點(diǎn),引領(lǐng)AI算力基礎(chǔ)設(shè)施新變革
DeepSeek-R1論文登Nature封面:AI大模型研究邁向科學(xué)嚴(yán)謹(jǐn)新階段
華為發(fā)布《AIDC機(jī)房參考設(shè)計(jì)白皮書》,為AI算力設(shè)施建設(shè)指明新方向
華為坤靈“4+10+N”方案出爐,一站式助力中小企業(yè)邁向智能世界
本文鏈接:http://www.www897cc.com/showinfo-45-27815-0.html通義DeepResearch重磅登場(chǎng):性能比肩海外旗艦,模型框架方案全面開源共享
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 平頭哥AI芯片PPU登上《新聞聯(lián)播》,亮相次日阿里港股市值達(dá)3.02萬億港元
下一篇: 宇樹科技杜鑫峰:機(jī)器人從文娛到工業(yè),在電網(wǎng)儲(chǔ)能等場(chǎng)景展身手