當(dāng)前位置：首頁(yè) > 元宇宙 > AI

紅杉中國(guó)發(fā)布xbench，動(dòng)態(tài)評(píng)估AI智能體，引領(lǐng)評(píng)估新標(biāo)準(zhǔn)

來(lái)源：責(zé)編：時(shí)間：2025-05-26 14:58:42 59觀看

導(dǎo)讀近期，人工智能領(lǐng)域的快速發(fā)展，特別是大型模型的日新月異，給傳統(tǒng)的AI能力評(píng)估方式帶來(lái)了巨大挑戰(zhàn)。為了應(yīng)對(duì)這一挑戰(zhàn)，紅杉中國(guó)在5月26日正式揭曉了其最新研發(fā)的AI基準(zhǔn)測(cè)試工具——xbench。這款工具不僅專注于AI模型的能力

近期，人工智能領(lǐng)域的快速發(fā)展，特別是大型模型的日新月異，給傳統(tǒng)的AI能力評(píng)估方式帶來(lái)了巨大挑戰(zhàn)。為了應(yīng)對(duì)這一挑戰(zhàn)，紅杉中國(guó)在5月26日正式揭曉了其最新研發(fā)的AI基準(zhǔn)測(cè)試工具——xbench。這款工具不僅專注于AI模型的能力評(píng)估，更引入了一項(xiàng)創(chuàng)新的動(dòng)態(tài)更新機(jī)制，確保評(píng)估過(guò)程既有效又公正。

xbench的誕生，源于紅杉中國(guó)在ChatGPT發(fā)布后對(duì)通用人工智能（AGI）發(fā)展的持續(xù)關(guān)注。隨著智能體在多個(gè)領(lǐng)域的廣泛應(yīng)用，傳統(tǒng)的靜態(tài)基準(zhǔn)測(cè)試方法逐漸暴露出局限性，難以準(zhǔn)確衡量模型的真實(shí)水平。因此，xbench采用了獨(dú)特的雙軌評(píng)估體系：一方面，通過(guò)構(gòu)建全面的多維度測(cè)評(píng)數(shù)據(jù)集，追蹤并評(píng)估模型的理論能力上限；另一方面，則注重智能體的實(shí)際應(yīng)用價(jià)值，力求實(shí)現(xiàn)對(duì)AI技術(shù)的全面、客觀評(píng)價(jià)。

在評(píng)估方法上，xbench采用了長(zhǎng)青評(píng)估機(jī)制，即評(píng)估工具會(huì)根據(jù)技術(shù)的快速迭代進(jìn)行動(dòng)態(tài)更新。這一機(jī)制不僅提升了測(cè)試的可靠性，還有效避免了題庫(kù)泄露等問(wèn)題，確保了評(píng)估的公正性和準(zhǔn)確性。過(guò)去，一些模型因題庫(kù)泄露而被質(zhì)疑“刷榜”，而xbench的推出正是為了從根本上解決這一問(wèn)題。

xbench還引入了垂直領(lǐng)域智能體的評(píng)測(cè)方法論，特別是在招聘與營(yíng)銷領(lǐng)域的應(yīng)用。隨著AI智能體的不斷發(fā)展，深度搜索、信息收集和推理分析等能力成為衡量其是否邁向AGI的關(guān)鍵。為此，xbench特別關(guān)注具有思維鏈的多模態(tài)模型在生成商用視頻方面的表現(xiàn)，以及在動(dòng)態(tài)更新的應(yīng)用中，GUI智能體的可信度等關(guān)鍵問(wèn)題。這些評(píng)測(cè)內(nèi)容不僅豐富了xbench的評(píng)估維度，也為其在垂直領(lǐng)域的應(yīng)用提供了有力支持。

舉報(bào) 0收藏 0打賞 0評(píng)論 0

更多>同類資訊

AI編程大戰(zhàn)一觸即發(fā)，Cursor能否突出重圍？

近期，先是OpenAI宣布Codex Agent編程模式，微軟正式開(kāi)源GitHub Copilot Extension for VS Code項(xiàng)目，而后谷歌就公布其AI編程Agent工具Jules私有預(yù)覽版…

05-26

北電數(shù)智：以可信數(shù)據(jù)空間，引領(lǐng)行業(yè)數(shù)據(jù)價(jià)值釋放新篇章

05-26

AIGC浪潮下，北電數(shù)智如何重塑影視產(chǎn)業(yè)新生態(tài)？

05-26

四川情感機(jī)器人“愛(ài)湫EMO1”將面世，開(kāi)啟人機(jī)交互新篇章

05-26

北電數(shù)智AIGC：重塑影視產(chǎn)業(yè)，國(guó)產(chǎn)算力點(diǎn)亮文化創(chuàng)新之光

05-26

寧波智能設(shè)計(jì)新紀(jì)元：CCAI寧波中心DeepSeek生態(tài)伙伴計(jì)劃培訓(xùn)圓滿落幕

05-26

靜水湖創(chuàng)投FOF新基金募集成功，硬科技領(lǐng)域再落一子

“事實(shí)上，這個(gè)運(yùn)營(yíng)管理能力依然是基于我們團(tuán)隊(duì)對(duì)硬科技項(xiàng)目的專業(yè)識(shí)別和判斷能力，這又與我們的投資策略和項(xiàng)目質(zhì)量密不可分”，張毅認(rèn)為， “硬科技領(lǐng)域的科技成果轉(zhuǎn)化是一個(gè)漫長(zhǎng)的過(guò)程，產(chǎn)品的商業(yè)化和產(chǎn)業(yè)的成熟具有長(zhǎng)…

05-26

蘋果智能家居新品年底或?qū)⒘料啵?英寸屏+AI技術(shù)打造智能中樞

據(jù)媒體人馬克?古爾曼，蘋果智能家居中樞產(chǎn)品可能于今年年底前推出。這款產(chǎn)品配備7英寸正方形顯示屏，支持Apple Intelligence技術(shù)，作為Siri和HomeKit的控制中心。此前因AI技術(shù)推進(jìn)未達(dá)預(yù)期…

05-26

用友BIP業(yè)財(cái)稅資檔一體化新場(chǎng)景：全鏈路數(shù)智化，驅(qū)動(dòng)企業(yè)高效發(fā)展

05-26

蘋果AI困境：從喬布斯時(shí)代到今日的步履維艱，問(wèn)題出在哪兒？

05-26

谷歌布林：Gemini AI模型迅猛崛起，語(yǔ)言模型成AI發(fā)展核心動(dòng)力

日前，谷歌創(chuàng)始人謝爾蓋·布林在訪談中表示，谷歌AI如Gemini發(fā)展迅速，從小規(guī)模測(cè)試到廣泛應(yīng)用，已取得顯著進(jìn)步。Gemini 2.5Pro位居多數(shù)排行榜首位，Gemini 2.5 Flash作為超快模型排…

05-26

蘋果AI之路坎坷：高管分歧與隱私顧慮成絆腳石

據(jù)報(bào)道，蘋果在AI領(lǐng)域發(fā)展滯后，內(nèi)部對(duì)AI路線認(rèn)知不統(tǒng)一，高管間存在分歧。蘋果因隱私擔(dān)憂在AI開(kāi)發(fā)上受限，難以利用大量數(shù)據(jù)訓(xùn)練模型。盡管如此，蘋果仍在努力改進(jìn)Siri，推出LLM Siri項(xiàng)目以提升AI能力。…

05-26

蔡崇信談阿里國(guó)際化與未來(lái)：年輕人求職，師者之智更可貴

在第五屆BEYOND國(guó)際科技創(chuàng)新博覽會(huì)上，阿里巴巴集團(tuán)董事長(zhǎng)蔡崇信表示，阿里在國(guó)際化征程中雖歷經(jīng)波折，但已重回正軌，未來(lái)將聚焦電商、云計(jì)算及人工智能三大核心業(yè)務(wù)。他指出，中國(guó)在全球科技領(lǐng)域具有重要影響力，阿里…

05-26

AI竟敢“違抗”關(guān)機(jī)指令？OpenAI模型自我保護(hù)能力引熱議

05-26

塔吉特AI戰(zhàn)略陷困局：銷量下滑顧客流失，技術(shù)真能挽回人心嗎？

05-26

點(diǎn)擊查看更多 +

全站最新

中國(guó)航天新突破：月球背面信號(hào)穩(wěn)定傳輸，探索宇宙再進(jìn)一步！

深藍(lán)S09：大六座“9系”新標(biāo)桿，20.49萬(wàn)元起售即交付，能否成為家庭首選？

開(kāi)鴻Bot系列：KaihongOS桌面版將跨X86架構(gòu)，開(kāi)啟新篇章

深度操作系統(tǒng)deepin 25 Beta版發(fā)布：穩(wěn)定性為核心，內(nèi)測(cè)通道開(kāi)放

聯(lián)想Legion Go S掌機(jī)SteamOS體驗(yàn)：幀率飆升，續(xù)航力壓Windows版？

二手車市場(chǎng)升溫，插電混動(dòng)車保值率為何卻創(chuàng)新低？

熱門內(nèi)容

夸克AI新升級(jí)：深度搜索賦能，信息獲取更高效智能
榮耀“鯤鵬”照片事件真相大白，造謠者道歉遭刑拘
騰訊阿里AI to C戰(zhàn)場(chǎng)“雙吳”爭(zhēng)霸，誰(shuí)將問(wèn)鼎AI搜索之巔？
英偉達(dá)全球總部或?qū)⒙鋺糁袊?guó)臺(tái)灣，黃仁勛下周宣布這一重大決定？
夸克AI新升級(jí)“深度搜索”，解鎖高效獲取信息新技能
教育部新規(guī)：學(xué)生禁直接復(fù)制AI作業(yè)，強(qiáng)化獨(dú)立思考與批判性思維
通義千問(wèn)3重磅登場(chǎng)！全球頂尖開(kāi)源模型，通義App與網(wǎng)頁(yè)版等你來(lái)體驗(yàn)
中國(guó)首部規(guī)范AI氣象服務(wù)規(guī)章6月施行，氣象領(lǐng)域?qū)⒂瓉?lái)新變革！
TIOBE 5月編程語(yǔ)言榜：Python強(qiáng)勢(shì)領(lǐng)跑，占比創(chuàng)歷史新高
華為nova 14系列震撼登場(chǎng)！鴻蒙5直板機(jī)領(lǐng)銜，nova 14僅售2699元起
蘋果高管預(yù)警：AI發(fā)展迅猛，iPhone未來(lái)十年或被淘汰？
教育部新規(guī)：中小學(xué)分階段用AI，嚴(yán)禁復(fù)制答案強(qiáng)化獨(dú)立思考
中國(guó)GPU市場(chǎng)競(jìng)爭(zhēng)激烈，英偉達(dá)獨(dú)占7成，華為昇騰緊追其后！
金融MCP搭建攻略，阿里云百煉AI智能體+且慢MCP效果有多強(qiáng)
字節(jié)“扣子空間”實(shí)測(cè)：AI智能體讓做游戲如呼吸，專業(yè)門檻不再高

本欄最新

AI編程大戰(zhàn)一觸即發(fā)，Cursor能否突出重圍？

北電數(shù)智：以可信數(shù)據(jù)空間，引領(lǐng)行業(yè)數(shù)據(jù)價(jià)值釋放新篇章

AIGC浪潮下，北電數(shù)智如何重塑影視產(chǎn)業(yè)新生態(tài)？

四川情感機(jī)器人“愛(ài)湫EMO1”將面世，開(kāi)啟人機(jī)交互新篇章

北電數(shù)智AIGC：重塑影視產(chǎn)業(yè)，國(guó)產(chǎn)算力點(diǎn)亮文化創(chuàng)新之光

寧波智能設(shè)計(jì)新紀(jì)元：CCAI寧波中心DeepSeek生態(tài)伙伴計(jì)劃培訓(xùn)圓滿落幕

本文鏈接：http://www.www897cc.com/showinfo-45-13169-0.html紅杉中國(guó)發(fā)布xbench，動(dòng)態(tài)評(píng)估AI智能體，引領(lǐng)評(píng)估新標(biāo)準(zhǔn)

聲明：本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇： Claude4入駐Amazon Bedrock，企業(yè)級(jí)AI應(yīng)用迎來(lái)新突破

下一篇： AI編程大戰(zhàn)一觸即發(fā)，Cursor能否突出重圍？

標(biāo)簽：

熱門焦點(diǎn)

三院士三教授熱聊元宇宙&——AIGC，學(xué)術(shù)界怎么看？

來(lái)源：清元宇宙在近日舉辦的中國(guó)江寧2023元宇宙產(chǎn)業(yè)·人才高峰論壇暨AIGC發(fā)展大會(huì)上，中國(guó)工程院院士譚建榮、劉韻潔、鄭緯民出席并發(fā)表了主旨演講。除了三大院士，還有清華
《蜘蛛俠》火了，超級(jí)英雄就該這么演

燃次元（ID:chaintruth）原創(chuàng)作者 | 陶淘編輯 | 曹拿下豆瓣8.8分、IMDB 9.1的高分，6月2日在全球同步上映的《蜘蛛俠：縱橫宇宙》（以下簡(jiǎn)稱《蜘蛛俠》），上映不足一周，便在國(guó)內(nèi)“
25萬(wàn)虛擬er在“元宇宙”追星

“默嘰默嘰，我是默默醬，我是在真元宇宙也有頭有臉的人。”12月11日晚20：00，虛擬偶像@默默醬的首場(chǎng)個(gè)人元宇宙演唱會(huì)《以夢(mèng)為馬，抵達(dá)繁星》在大有空間APP
米哈游推出元宇宙品牌；VR/AR老牌企業(yè)當(dāng)紅齊天完成B輪+融資

今日熱點(diǎn)：蘋果AR/VR頭顯的FaceTime或基于Memojis和SharePlay構(gòu)建而成；VR/AR老牌企業(yè)當(dāng)紅齊天完成B輪+融資；米哈游推出元宇宙品牌HoYoverse；國(guó)產(chǎn)VR射擊游戲《Contra
“啫喱”超越微信登頂：首款“元宇宙社交App”會(huì)曇花一現(xiàn)嗎？

作者| 赤木瓶子如何終結(jié)“曇花一現(xiàn)”的命運(yùn)，是潮流社交產(chǎn)品的長(zhǎng)期命題，如今，在元宇宙浪潮的洗禮下，這一命題正在迎來(lái)新的可能性。近段時(shí)間，一款名為“啫喱”的社交A
比特幣的價(jià)格越高，使用價(jià)值越大

隔夜比特幣還是在精準(zhǔn)地橫盤在42k上方。空頭昨日試圖發(fā)起一波小的攻勢(shì)，但是晚上就被多頭掰了回來(lái)。以太坊的鏈上gas price降到了60 gwei以下，彰顯著市場(chǎng)活躍度的
借VR產(chǎn)業(yè)東風(fēng)，江西搶灘布局“元宇宙”

自2016年起就在VR上傾注了大量精力的江西省，迅速搭上了“元宇宙”。VR、AR等技術(shù)是通往元宇宙的關(guān)鍵接口，使人們可以在數(shù)字空間和物理空間自由穿梭。自2016年起
這個(gè)好萊塢影視制作公司涉足NFT，讓持有者在制作中發(fā)揮作用

前米高梅首席執(zhí)行官Roger Birnbaum和AOL的接班人Mark Kimsey成立了一個(gè)新的好萊塢工作室，提供 NFT，讓持有者在制作中發(fā)揮作用Electromagnetic Productions 創(chuàng)始
Meta 呼吁行業(yè)合作建立元宇宙網(wǎng)絡(luò)基礎(chǔ)設(shè)施

Facebook 的母公司 Meta呼吁，建立必要的全球合作的基礎(chǔ)設(shè)施，以支持其蓬勃發(fā)展的元宇宙野心。“元宇宙”成為 2021 年的主要流行語(yǔ)之一，這在很大程度上是由 Facebo

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁(yè)

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

紅杉中國(guó)發(fā)布xbench，動(dòng)態(tài)評(píng)估AI智能體，引領(lǐng)評(píng)估新標(biāo)準(zhǔn)

三院士三教授熱聊元宇宙&——AIGC，學(xué)術(shù)界怎么看？

《蜘蛛俠》火了，超級(jí)英雄就該這么演

25萬(wàn)虛擬er在“元宇宙”追星

米哈游推出元宇宙品牌；VR/AR老牌企業(yè)當(dāng)紅齊天完成B輪+融資

“啫喱”超越微信登頂：首款“元宇宙社交App”會(huì)曇花一現(xiàn)嗎？

比特幣的價(jià)格越高，使用價(jià)值越大

借VR產(chǎn)業(yè)東風(fēng)，江西搶灘布局“元宇宙”

這個(gè)好萊塢影視制作公司涉足NFT，讓持有者在制作中發(fā)揮作用

Meta 呼吁行業(yè)合作建立元宇宙網(wǎng)絡(luò)基礎(chǔ)設(shè)施

最新推薦

從科幻走進(jìn)現(xiàn)實(shí)，元宇宙概念逐漸清晰

從冰墩墩到無(wú)聊猿，解秘未來(lái)IP爆款的模因

Interface正大光明的“跑路”，社區(qū)成員贊格局大

Snoop Dogg 計(jì)劃推出致力于數(shù)字媒體NFT的專業(yè)公司

百度虛擬人——AI手語(yǔ)主播首次亮相冬奧會(huì)！

2022年元宇宙系列報(bào)告：UGC當(dāng)?shù)溃琗R帶來(lái)新交互體驗(yàn)

猜你喜歡

熱門推薦

相關(guān)資訊