當(dāng)前位置：首頁(yè) > 元宇宙 > AI

上海AI實(shí)驗(yàn)室創(chuàng)新：借學(xué)術(shù)講座打造AI研究助手評(píng)測(cè)新基準(zhǔn)

來(lái)源：責(zé)編：時(shí)間：2025-09-25 15:04:41 355觀看

導(dǎo)讀隨著人工智能技術(shù)在科研領(lǐng)域的滲透，如何科學(xué)評(píng)估AI研究助手的能力成為學(xué)界關(guān)注的核心問(wèn)題。上海人工智能實(shí)驗(yàn)室聯(lián)合清華大學(xué)、香港科技大學(xué)（廣州）及牛津大學(xué)等機(jī)構(gòu)，通過(guò)創(chuàng)新性的學(xué)術(shù)講座場(chǎng)景評(píng)測(cè)方法，構(gòu)建了名為DeepResear

隨著人工智能技術(shù)在科研領(lǐng)域的滲透，如何科學(xué)評(píng)估AI研究助手的能力成為學(xué)界關(guān)注的核心問(wèn)題。上海人工智能實(shí)驗(yàn)室聯(lián)合清華大學(xué)、香港科技大學(xué)（廣州）及牛津大學(xué)等機(jī)構(gòu)，通過(guò)創(chuàng)新性的學(xué)術(shù)講座場(chǎng)景評(píng)測(cè)方法，構(gòu)建了名為DeepResearch Arena的評(píng)測(cè)體系，為AI研究能力評(píng)估提供了全新范式。

傳統(tǒng)評(píng)測(cè)方式存在明顯缺陷：基于文獻(xiàn)的問(wèn)題可能被AI提前"記憶"，人工設(shè)計(jì)題目則面臨覆蓋面不足的困境。研究團(tuán)隊(duì)發(fā)現(xiàn)，學(xué)術(shù)講座中自然產(chǎn)生的開(kāi)放性問(wèn)題更能反映真實(shí)科研過(guò)程。這類場(chǎng)景中，研究者會(huì)實(shí)時(shí)提出未解決的疑問(wèn)、探討跨學(xué)科可能性，這種動(dòng)態(tài)的思維碰撞過(guò)程未被納入現(xiàn)有AI訓(xùn)練數(shù)據(jù)，有效避免了數(shù)據(jù)泄露風(fēng)險(xiǎn)。

核心突破在于MAHTG（多智能體分層任務(wù)生成）系統(tǒng)的開(kāi)發(fā)。該系統(tǒng)通過(guò)四重篩選標(biāo)準(zhǔn)——新穎性、可探索性、挑戰(zhàn)性和可驗(yàn)證性，從講座轉(zhuǎn)錄文本中精準(zhǔn)提取研究靈感。例如，當(dāng)教授討論算法處理大規(guī)模數(shù)據(jù)的瓶頸時(shí)，系統(tǒng)會(huì)將其歸類為"局限性"類型，并生成改進(jìn)算法的具體任務(wù)。這種分類機(jī)制確保生成的任務(wù)覆蓋文獻(xiàn)綜述、方法設(shè)計(jì)、實(shí)驗(yàn)評(píng)估等完整研究鏈條。

研究團(tuán)隊(duì)收集了12個(gè)學(xué)科領(lǐng)域的200余場(chǎng)講座錄音，通過(guò)MAHTG系統(tǒng)生成超萬(wàn)個(gè)研究任務(wù)，構(gòu)建了迄今最大規(guī)模的跨學(xué)科評(píng)測(cè)數(shù)據(jù)集。在任務(wù)生成環(huán)節(jié)，系統(tǒng)采用Elo評(píng)分機(jī)制進(jìn)行質(zhì)量排序：初始設(shè)定1200分基礎(chǔ)值，通過(guò)原創(chuàng)性、清晰度等指標(biāo)的多輪比對(duì)，最終篩選出最高質(zhì)量的評(píng)測(cè)任務(wù)。

評(píng)估體系創(chuàng)新性地采用雙維度框架：關(guān)鍵點(diǎn)對(duì)齊評(píng)估（KAE）通過(guò)比對(duì)AI引用資料與回答內(nèi)容，計(jì)算支持率、沖突率和遺漏率；自適應(yīng)清單評(píng)估（ACE）則針對(duì)開(kāi)放性任務(wù)，動(dòng)態(tài)生成包含方法論嚴(yán)謹(jǐn)性、技術(shù)準(zhǔn)確性等維度的評(píng)價(jià)清單。這種設(shè)計(jì)既保證了客觀性，又兼顧了研究任務(wù)的創(chuàng)造性特征。

實(shí)驗(yàn)結(jié)果顯示，主流AI模型在真實(shí)研究場(chǎng)景中表現(xiàn)差異顯著。O4-mini深度研究版在主觀評(píng)估中獲4.03分，展現(xiàn)較強(qiáng)綜合能力；GPT-4.1雖事實(shí)精確性突出，但連貫性不足；Gemini-2.5-flash版本信息覆蓋全面，卻存在效率權(quán)衡問(wèn)題。特別值得注意的是，所有模型在假設(shè)生成、跨學(xué)科方法設(shè)計(jì)等高階任務(wù)中均暴露明顯短板。

為確保評(píng)測(cè)公正性，研究團(tuán)隊(duì)設(shè)計(jì)了嚴(yán)格的數(shù)據(jù)泄露檢測(cè)：將任務(wù)切割為提示和待續(xù)寫部分，通過(guò)字符串相似度、TF-IDF余弦相似度及詞匯重疊率的三重驗(yàn)證，確認(rèn)所有模型未出現(xiàn)記憶化復(fù)現(xiàn)。人工評(píng)估對(duì)比實(shí)驗(yàn)進(jìn)一步證明，自動(dòng)評(píng)估系統(tǒng)與專家判斷的Spearman相關(guān)系數(shù)達(dá)0.84，展現(xiàn)出高度一致性。

該研究揭示，當(dāng)前AI在事實(shí)檢索層面已具相當(dāng)能力，但在創(chuàng)造性思維、跨領(lǐng)域整合等核心科研能力上仍有提升空間。例如Grok-4模型在英語(yǔ)任務(wù)中支持率達(dá)83.3%，中文任務(wù)卻驟降至62.1%，凸顯多語(yǔ)言泛化能力的局限。這種差異化的表現(xiàn)分析，為AI研究助手的優(yōu)化方向提供了精準(zhǔn)指引。

論文提出的評(píng)測(cè)方法已通過(guò)arXiv平臺(tái)公開(kāi)（編號(hào)2509.01396v1），其創(chuàng)新價(jià)值不僅在于技術(shù)實(shí)現(xiàn)，更在于構(gòu)建了接近真實(shí)科研環(huán)境的評(píng)估框架。這種從"靜態(tài)試題"到"動(dòng)態(tài)研討"的轉(zhuǎn)變，或?qū)⑼苿?dòng)AI從輔助工具向真正研究伙伴的演進(jìn)。對(duì)于科研工作者而言，這意味著未來(lái)可能獲得更智能的協(xié)作伙伴；對(duì)于AI開(kāi)發(fā)者，則明確了算法改進(jìn)的重點(diǎn)方向。

更多>同類資訊宇樹科技王興興：人形機(jī)器人或年底至明年上半年可實(shí)時(shí)生成多樣動(dòng)作09-24阿里云AI戰(zhàn)略重磅發(fā)布：3800億投入迎ASI時(shí)代，十大核心要點(diǎn)解析09-24秘塔AI推出「Agentic Search」模式：邊搜邊做，20余種工具讓想法秒變現(xiàn)實(shí)09-24雷軍明日將迎健身百次打卡與年度演講，小米17系列屏幕亮點(diǎn)搶先看09-24?阿里吳泳銘云棲大會(huì)發(fā)聲：3800億資本開(kāi)支再加碼，劍指超級(jí)人工智能時(shí)代?09-24阿里吳泳銘云棲發(fā)聲：AGI僅是開(kāi)篇，通往ASI三階段路線及戰(zhàn)略定位揭曉09-24Qwen3-Max數(shù)學(xué)滿分領(lǐng)銜，Qwen3-VL等七大模型齊發(fā)，技術(shù)革新再升級(jí)09-24阿里云與英偉達(dá)強(qiáng)強(qiáng)聯(lián)手，全面集成軟件棧賦能物理AI全流程開(kāi)發(fā)09-24周鴻祎：AGI短期難實(shí)現(xiàn)且藏風(fēng)險(xiǎn)，多智能體協(xié)同才是AI未來(lái)方向09-24周鴻祎羅永浩對(duì)談：AI時(shí)代員工管理新思路，360戰(zhàn)略聚焦智能體09-24阿里云棲大會(huì)重磅發(fā)布：7大模型升級(jí)，吳泳銘描繪AI未來(lái)藍(lán)圖09-24慧科訊業(yè)亮相華為HC大會(huì)，攜手華為云共繪企業(yè)AI增效發(fā)展藍(lán)圖09-24阿里云與英偉達(dá)2025云棲大會(huì)“牽手”，共拓Physical AI領(lǐng)域新機(jī)遇09-24阿里All in AI后首份答卷亮相：大模型與基礎(chǔ)設(shè)施雙突破，資本市場(chǎng)點(diǎn)贊09-24阿里云棲大會(huì)重磅發(fā)布：3800億AI基建計(jì)劃，市值一日飆升近3000億09-24點(diǎn)擊查看更多 +全站最新

限量50臺(tái)！梅賽德斯-邁巴赫V12 Edition官圖亮相，24K金徽標(biāo)配手工定制盡顯奢華

賓利純電動(dòng)SUV諜照來(lái)襲，2026年發(fā)布，定位添越之下引期待

2026款沃爾沃EX90官圖亮相：800V架構(gòu)加持，雙Orin芯片助力智能駕駛升級(jí)

東風(fēng)日產(chǎn)新款天籟四季度上市，16-18萬(wàn)起售，鴻蒙座艙+2.0T引擎成亮點(diǎn) ?Jeep大指揮官Trail Edition官圖亮相七座布局+2.0T柴油動(dòng)力限量150臺(tái)僅售日本市場(chǎng)?

?Jeep大指揮官Trail Edition官圖亮相七座布局+2.0T柴油動(dòng)力限量150臺(tái)僅售日本市場(chǎng)?

蘭博基尼汽車攜手意大利海洋集團(tuán) 全新Tecnomar 101FT游艇詮釋海洋奢華新境熱門內(nèi)容

寒武紀(jì)回應(yīng)訂單不實(shí)傳聞：產(chǎn)品多行業(yè)部署，存貨增長(zhǎng)因云端備貨
熱度攀升！千億科技龍頭頻獲機(jī)構(gòu)調(diào)研，業(yè)務(wù)增長(zhǎng)透露哪些行業(yè)新動(dòng)向？
蘋果加速AI布局，或收購(gòu)兩家法國(guó)AI初創(chuàng)企業(yè)
蘋果秋季發(fā)布會(huì)亮相iPhone 17系列："史上最薄"Air登場(chǎng)，Pro Max 2TB版定價(jià)17999元
蘋果加速布局中國(guó)市場(chǎng)！Apple Intelligence和新版Siri或年底至明年上線
?小米16系列或提前登場(chǎng)，首發(fā)驍龍8 Elite Gen5，9月機(jī)圈大戰(zhàn)一觸即發(fā)?
均勝電子新品亮相：AI頭部總成、全域控制器等完善機(jī)器人產(chǎn)品矩陣
國(guó)金證券：A股第三輪重估腳步臨近，三類資產(chǎn)投資方向值得關(guān)注
蘋果AI布局加速，或?qū)⒊饩拶Y收購(gòu)歐洲兩大AI初創(chuàng)企業(yè)
18歲涂津豪：從DeepSeek實(shí)習(xí)生到Nature封面作者，以少年之力叩響AI新章
WAVE SUMMIT大會(huì)新動(dòng)態(tài)：文心大模型X1.1上線，多項(xiàng)能力顯著躍升
華為智能手表登頂全球，蘋果需直面挑戰(zhàn)求變革
?字節(jié)跳動(dòng)千人芯片團(tuán)隊(duì)架構(gòu)調(diào)整，轉(zhuǎn)至新加坡子公司Picoheart引關(guān)注?
華為Mate系列2025年選購(gòu)指南：三款高性價(jià)比機(jī)型技術(shù)解析與場(chǎng)景適配
${亞馬遜發(fā)布"2025產(chǎn)品創(chuàng)新出海品牌五十強(qiáng)"：出口跨境電商規(guī)模達(dá)2.15萬(wàn)億

本欄最新

第22屆東博會(huì)AI元素亮眼：數(shù)字智能體引路機(jī)器人炫技展風(fēng)采

AI云競(jìng)爭(zhēng)下半場(chǎng)：華為以超節(jié)點(diǎn)、企業(yè)Agent等破局，誰(shuí)能領(lǐng)跑產(chǎn)業(yè)？

2025網(wǎng)安周：每日互動(dòng)劉宇談AI時(shí)代，知識(shí)安全成關(guān)鍵，共筑數(shù)字新未來(lái)

中國(guó)大模型DeepSeek首登Nature封面，R1訓(xùn)練成本僅約208萬(wàn)引關(guān)注

華為全聯(lián)接大會(huì)2025啟幕，發(fā)布全球最強(qiáng)算力超節(jié)點(diǎn)與集群

有鹿機(jī)器人+連合直租：以智能租賃模式，開(kāi)啟高端場(chǎng)景清潔新未來(lái)

本文鏈接：http://www.www897cc.com/showinfo-45-28119-0.html上海AI實(shí)驗(yàn)室創(chuàng)新：借學(xué)術(shù)講座打造AI研究助手評(píng)測(cè)新基準(zhǔn)

聲明：本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇：沙特研究新突破：AI推理能力可"提取轉(zhuǎn)移"，智能升級(jí)迎新路徑

下一篇： LeCun 團(tuán)隊(duì)開(kāi)源首款代碼世界模型，能像程序員一樣思考的 LLM 來(lái)了

標(biāo)簽：

熱門焦點(diǎn)

元宇宙里掀起回憶殺？這波虛擬懷舊營(yíng)銷主打一個(gè)極限反差

來(lái)源：首席品牌官?gòu)谋环Q為“元宇宙元年”的2021年開(kāi)始，幾乎所有品牌都在迫不及待地“入駐”元宇宙。而一提及品牌們的元宇宙玩法，相信多數(shù)人腦海里首先浮現(xiàn)
元宇宙步入暗夜

撰文 | 文燁豪元宇宙的故事，似乎講不通了。當(dāng)下，刮起元宇宙熱潮的Roblox股價(jià)已跌去大半，帶頭大哥Meta也正因元宇宙虧損深陷泥潭。再看國(guó)內(nèi)，從字節(jié)“派對(duì)島&
元宇宙帶來(lái)沉浸式智能登錄？你學(xué)會(huì)了嗎？

備受資本市場(chǎng)寵愛(ài)的元宇宙概念，正掀起一番番波瀾。元宇宙作為虛實(shí)相融的互聯(lián)網(wǎng)應(yīng)用和社會(huì)形態(tài)，與沉浸式體驗(yàn)緊密相關(guān)。多重路徑，打造無(wú)感知沉浸式智能登錄《設(shè)計(jì)
“任何國(guó)產(chǎn)元宇宙都是假元宇宙”

上個(gè)月，華語(yǔ)樂(lè)壇的優(yōu)質(zhì)偶像之一，DOTA2資深玩家林俊杰，在國(guó)外元宇宙產(chǎn)品分布式大陸(Decentraland)上買了三塊虛擬地產(chǎn)，花了12.3萬(wàn)美元（也就是人民幣接近80萬(wàn)）。截至目
NFT的未來(lái)：傳統(tǒng)企業(yè)與去中心化機(jī)構(gòu)之間的競(jìng)賽

傳統(tǒng)企業(yè)和去中心化機(jī)構(gòu)一直存在分歧，但最近NFT的爆炸式增長(zhǎng)讓他們產(chǎn)生了共同的興趣，雙方都在競(jìng)相讓用戶更輕松、更方便地使用NFT。毫無(wú)疑問(wèn)，NFT 市場(chǎng)正在增長(zhǎng)。
冰墩墩還能火多久？

作者：田巧云題圖源自北京2022年冬奧會(huì)官方微博如果要問(wèn)2022年的開(kāi)年明星是誰(shuí)，冰墩墩當(dāng)仁不讓。幾乎所有人都被那個(gè)抖雪的動(dòng)作實(shí)力圈粉。在社交媒體的助推，以及日
NFT 技術(shù)將傳世之作帶入博物館

意大利四大博物館已與一個(gè)項(xiàng)目合作，該項(xiàng)目將展示和銷售達(dá)芬奇、卡拉瓦喬、拉斐爾和莫迪利亞尼等人的杰作的 NFT復(fù)制品。該計(jì)劃采用了科技公司Cincello的國(guó)際專
為什么元宇宙將永遠(yuǎn)改變體育和你的生活？

自從Facebook更名為Meta以來(lái)，Metaverse這個(gè)詞已經(jīng)被大家所熟知。但是當(dāng)Metaverse仍然被許多人視為一個(gè)虛擬的平行世界時(shí)，一些項(xiàng)目已經(jīng)顯示出Metaverse將如何永遠(yuǎn)
百度虛擬人——AI手語(yǔ)主播首次亮相冬奧會(huì)！

除了火遍全國(guó)的冰墩墩，虛擬人也成為這屆冬奧會(huì)的一大亮點(diǎn)元素。以體育明星谷愛(ài)凌為原型的數(shù)智人Meet Gu最先亮相。在2月5日谷愛(ài)凌首秀、2月7日谷愛(ài)凌首金的兩天

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁(yè)

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

上海AI實(shí)驗(yàn)室創(chuàng)新：借學(xué)術(shù)講座打造AI研究助手評(píng)測(cè)新基準(zhǔn)

元宇宙里掀起回憶殺？這波虛擬懷舊營(yíng)銷主打一個(gè)極限反差

元宇宙步入暗夜

元宇宙帶來(lái)沉浸式智能登錄？你學(xué)會(huì)了嗎？

“任何國(guó)產(chǎn)元宇宙都是假元宇宙”

NFT的未來(lái)：傳統(tǒng)企業(yè)與去中心化機(jī)構(gòu)之間的競(jìng)賽

冰墩墩還能火多久？

NFT 技術(shù)將傳世之作帶入博物館

為什么元宇宙將永遠(yuǎn)改變體育和你的生活？

百度虛擬人——AI手語(yǔ)主播首次亮相冬奧會(huì)！

最新推薦

聚焦虛擬數(shù)字人技術(shù)，這三大商機(jī)要抓住！

花房集團(tuán)上市，走向元宇宙新征程

比特幣的價(jià)格越高，使用價(jià)值越大

以太坊升級(jí)將會(huì)帶來(lái)的5個(gè)改變

“我沒(méi)搞懂元宇宙，但一天能賺9w塊”

融資千萬(wàn)美元的元宇宙平臺(tái)UGC到底是什么？

猜你喜歡

熱門推薦

相關(guān)資訊