隨著人工智能技術(shù)在科研領(lǐng)域的滲透,如何科學(xué)評(píng)估AI研究助手的能力成為學(xué)界關(guān)注的核心問(wèn)題。上海人工智能實(shí)驗(yàn)室聯(lián)合清華大學(xué)、香港科技大學(xué)(廣州)及牛津大學(xué)等機(jī)構(gòu),通過(guò)創(chuàng)新性的學(xué)術(shù)講座場(chǎng)景評(píng)測(cè)方法,構(gòu)建了名為DeepResearch Arena的評(píng)測(cè)體系,為AI研究能力評(píng)估提供了全新范式。
傳統(tǒng)評(píng)測(cè)方式存在明顯缺陷:基于文獻(xiàn)的問(wèn)題可能被AI提前"記憶",人工設(shè)計(jì)題目則面臨覆蓋面不足的困境。研究團(tuán)隊(duì)發(fā)現(xiàn),學(xué)術(shù)講座中自然產(chǎn)生的開(kāi)放性問(wèn)題更能反映真實(shí)科研過(guò)程。這類場(chǎng)景中,研究者會(huì)實(shí)時(shí)提出未解決的疑問(wèn)、探討跨學(xué)科可能性,這種動(dòng)態(tài)的思維碰撞過(guò)程未被納入現(xiàn)有AI訓(xùn)練數(shù)據(jù),有效避免了數(shù)據(jù)泄露風(fēng)險(xiǎn)。
核心突破在于MAHTG(多智能體分層任務(wù)生成)系統(tǒng)的開(kāi)發(fā)。該系統(tǒng)通過(guò)四重篩選標(biāo)準(zhǔn)——新穎性、可探索性、挑戰(zhàn)性和可驗(yàn)證性,從講座轉(zhuǎn)錄文本中精準(zhǔn)提取研究靈感。例如,當(dāng)教授討論算法處理大規(guī)模數(shù)據(jù)的瓶頸時(shí),系統(tǒng)會(huì)將其歸類為"局限性"類型,并生成改進(jìn)算法的具體任務(wù)。這種分類機(jī)制確保生成的任務(wù)覆蓋文獻(xiàn)綜述、方法設(shè)計(jì)、實(shí)驗(yàn)評(píng)估等完整研究鏈條。
研究團(tuán)隊(duì)收集了12個(gè)學(xué)科領(lǐng)域的200余場(chǎng)講座錄音,通過(guò)MAHTG系統(tǒng)生成超萬(wàn)個(gè)研究任務(wù),構(gòu)建了迄今最大規(guī)模的跨學(xué)科評(píng)測(cè)數(shù)據(jù)集。在任務(wù)生成環(huán)節(jié),系統(tǒng)采用Elo評(píng)分機(jī)制進(jìn)行質(zhì)量排序:初始設(shè)定1200分基礎(chǔ)值,通過(guò)原創(chuàng)性、清晰度等指標(biāo)的多輪比對(duì),最終篩選出最高質(zhì)量的評(píng)測(cè)任務(wù)。
評(píng)估體系創(chuàng)新性地采用雙維度框架:關(guān)鍵點(diǎn)對(duì)齊評(píng)估(KAE)通過(guò)比對(duì)AI引用資料與回答內(nèi)容,計(jì)算支持率、沖突率和遺漏率;自適應(yīng)清單評(píng)估(ACE)則針對(duì)開(kāi)放性任務(wù),動(dòng)態(tài)生成包含方法論嚴(yán)謹(jǐn)性、技術(shù)準(zhǔn)確性等維度的評(píng)價(jià)清單。這種設(shè)計(jì)既保證了客觀性,又兼顧了研究任務(wù)的創(chuàng)造性特征。
實(shí)驗(yàn)結(jié)果顯示,主流AI模型在真實(shí)研究場(chǎng)景中表現(xiàn)差異顯著。O4-mini深度研究版在主觀評(píng)估中獲4.03分,展現(xiàn)較強(qiáng)綜合能力;GPT-4.1雖事實(shí)精確性突出,但連貫性不足;Gemini-2.5-flash版本信息覆蓋全面,卻存在效率權(quán)衡問(wèn)題。特別值得注意的是,所有模型在假設(shè)生成、跨學(xué)科方法設(shè)計(jì)等高階任務(wù)中均暴露明顯短板。
為確保評(píng)測(cè)公正性,研究團(tuán)隊(duì)設(shè)計(jì)了嚴(yán)格的數(shù)據(jù)泄露檢測(cè):將任務(wù)切割為提示和待續(xù)寫部分,通過(guò)字符串相似度、TF-IDF余弦相似度及詞匯重疊率的三重驗(yàn)證,確認(rèn)所有模型未出現(xiàn)記憶化復(fù)現(xiàn)。人工評(píng)估對(duì)比實(shí)驗(yàn)進(jìn)一步證明,自動(dòng)評(píng)估系統(tǒng)與專家判斷的Spearman相關(guān)系數(shù)達(dá)0.84,展現(xiàn)出高度一致性。
該研究揭示,當(dāng)前AI在事實(shí)檢索層面已具相當(dāng)能力,但在創(chuàng)造性思維、跨領(lǐng)域整合等核心科研能力上仍有提升空間。例如Grok-4模型在英語(yǔ)任務(wù)中支持率達(dá)83.3%,中文任務(wù)卻驟降至62.1%,凸顯多語(yǔ)言泛化能力的局限。這種差異化的表現(xiàn)分析,為AI研究助手的優(yōu)化方向提供了精準(zhǔn)指引。
論文提出的評(píng)測(cè)方法已通過(guò)arXiv平臺(tái)公開(kāi)(編號(hào)2509.01396v1),其創(chuàng)新價(jià)值不僅在于技術(shù)實(shí)現(xiàn),更在于構(gòu)建了接近真實(shí)科研環(huán)境的評(píng)估框架。這種從"靜態(tài)試題"到"動(dòng)態(tài)研討"的轉(zhuǎn)變,或?qū)⑼苿?dòng)AI從輔助工具向真正研究伙伴的演進(jìn)。對(duì)于科研工作者而言,這意味著未來(lái)可能獲得更智能的協(xié)作伙伴;對(duì)于AI開(kāi)發(fā)者,則明確了算法改進(jìn)的重點(diǎn)方向。
更多>同類資訊宇樹科技王興興:人形機(jī)器人或年底至明年上半年可實(shí)時(shí)生成多樣動(dòng)作09-24阿里云AI戰(zhàn)略重磅發(fā)布:3800億投入迎ASI時(shí)代,十大核心要點(diǎn)解析09-24秘塔AI推出「Agentic Search」模式:邊搜邊做,20余種工具讓想法秒變現(xiàn)實(shí)09-24雷軍明日將迎健身百次打卡與年度演講,小米17系列屏幕亮點(diǎn)搶先看09-24?阿里吳泳銘云棲大會(huì)發(fā)聲:3800億資本開(kāi)支再加碼,劍指超級(jí)人工智能時(shí)代?09-24阿里吳泳銘云棲發(fā)聲:AGI僅是開(kāi)篇,通往ASI三階段路線及戰(zhàn)略定位揭曉09-24Qwen3-Max數(shù)學(xué)滿分領(lǐng)銜,Qwen3-VL等七大模型齊發(fā),技術(shù)革新再升級(jí)09-24阿里云與英偉達(dá)強(qiáng)強(qiáng)聯(lián)手,全面集成軟件棧賦能物理AI全流程開(kāi)發(fā)09-24周鴻祎:AGI短期難實(shí)現(xiàn)且藏風(fēng)險(xiǎn),多智能體協(xié)同才是AI未來(lái)方向09-24周鴻祎羅永浩對(duì)談:AI時(shí)代員工管理新思路,360戰(zhàn)略聚焦智能體09-24阿里云棲大會(huì)重磅發(fā)布:7大模型升級(jí),吳泳銘描繪AI未來(lái)藍(lán)圖09-24慧科訊業(yè)亮相華為HC大會(huì),攜手華為云共繪企業(yè)AI增效發(fā)展藍(lán)圖09-24阿里云與英偉達(dá)2025云棲大會(huì)“牽手”,共拓Physical AI領(lǐng)域新機(jī)遇09-24阿里All in AI后首份答卷亮相:大模型與基礎(chǔ)設(shè)施雙突破,資本市場(chǎng)點(diǎn)贊09-24阿里云棲大會(huì)重磅發(fā)布:3800億AI基建計(jì)劃,市值一日飆升近3000億09-24點(diǎn)擊查看更多 +全站最新
限量50臺(tái)!梅賽德斯-邁巴赫V12 Edition官圖亮相,24K金徽標(biāo)配手工定制盡顯奢華
賓利純電動(dòng)SUV諜照來(lái)襲,2026年發(fā)布,定位添越之下引期待
2026款沃爾沃EX90官圖亮相:800V架構(gòu)加持,雙Orin芯片助力智能駕駛升級(jí)
東風(fēng)日產(chǎn)新款天籟四季度上市,16-18萬(wàn)起售,鴻蒙座艙+2.0T引擎成亮點(diǎn)
?Jeep大指揮官Trail Edition官圖亮相 七座布局+2.0T柴油動(dòng)力 限量150臺(tái)僅售日本市場(chǎng)?
蘭博基尼汽車攜手意大利海洋集團(tuán) 全新Tecnomar 101FT游艇詮釋海洋奢華新境熱門內(nèi)容
第22屆東博會(huì)AI元素亮眼:數(shù)字智能體引路 機(jī)器人炫技展風(fēng)采
AI云競(jìng)爭(zhēng)下半場(chǎng):華為以超節(jié)點(diǎn)、企業(yè)Agent等破局,誰(shuí)能領(lǐng)跑產(chǎn)業(yè)?
2025網(wǎng)安周:每日互動(dòng)劉宇談AI時(shí)代,知識(shí)安全成關(guān)鍵,共筑數(shù)字新未來(lái)
中國(guó)大模型DeepSeek首登Nature封面,R1訓(xùn)練成本僅約208萬(wàn)引關(guān)注
華為全聯(lián)接大會(huì)2025啟幕,發(fā)布全球最強(qiáng)算力超節(jié)點(diǎn)與集群
有鹿機(jī)器人+連合直租:以智能租賃模式,開(kāi)啟高端場(chǎng)景清潔新未來(lái)
本文鏈接:http://www.www897cc.com/showinfo-45-28119-0.html上海AI實(shí)驗(yàn)室創(chuàng)新:借學(xué)術(shù)講座打造AI研究助手評(píng)測(cè)新基準(zhǔn)
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 沙特研究新突破:AI推理能力可"提取轉(zhuǎn)移",智能升級(jí)迎新路徑
下一篇: LeCun 團(tuán)隊(duì)開(kāi)源首款代碼世界模型,能像程序員一樣思考的 LLM 來(lái)了