當前位置：首頁 > 元宇宙 > AI

“人類終極考試”基準測試發布：頂級 AI 系統表現慘淡，回答準確率均未超 10%

來源：責編：時間：2025-01-27 09:27:02 76觀看

導讀 1 月 24 日消息，非營利組織“人工智能安全中心”（CAIS）與提供數據標注和 AI 開發服務的公司 Scale AI 聯合推出了一個名為“人類終極考試”（Humanity's Last Exam）的新型基準測試，旨在評估前沿 AI 系統的綜合能力。

1 月 24 日消息，非營利組織“人工智能安全中心”（CAIS）與提供數據標注和 AI 開發服務的公司 Scale AI 聯合推出了一個名為“人類終極考試”（Humanity's Last Exam）的新型基準測試，旨在評估前沿 AI 系統的綜合能力。這一測試因其極高的難度引起關注。

據了解，該基準測試包含來自50個國家 / 地區500多個機構的近1,000名學科專家撰稿人提出問題，這些專家主要由教授、研究人員和研究生學位持有者組成，涵蓋數學、人文學科和自然科學等多個領域。為增加測試的挑戰性，題目形式多樣，包括結合圖表和圖像的復雜題型。這種設計旨在全面考察 AI 系統在跨學科知識和多模態信息處理方面的能力。

在初步研究中，所有公開可用的旗艦 AI 系統在該測試中的回答準確率均未超過 10%。這一結果表明，盡管當前 AI 技術在特定領域已取得顯著進展，但在應對復雜、綜合性的問題時仍存在明顯短板。

CAIS 和 Scale AI 表示，他們計劃將這一基準測試向研究社區開放，以便研究人員能夠“深入挖掘差異”并評估新開發的 AI 模型。

本文鏈接：http://www.www897cc.com/showinfo-45-10176-0.html“人類終極考試”基準測試發布：頂級 AI 系統表現慘淡，回答準確率均未超 10%

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： OpenAI 首個智能體 Operator 測評，你也能擁有 24 小時私人管家

下一篇： Anthropic 發布 Citations API，迎戰 AI 信息來源驗證挑戰

標簽：

熱門焦點

在數字世界再造世界杯，元宇宙體育正變得越來越豐滿

撰文/ 蔥鮪魚本屆世界杯可能不是最精彩的一屆，卻絕對是看點十足的一屆：后疫情時代的首屆世界杯、耗資2200億美元打造的“史上最貴”世界杯、足壇黃金
韓國主權基金增加對硅谷初創公司投資押注元宇宙和人工智能

韓國投資公司(KIC)CEO Seoungho Jin預計，該公司在舊金山的辦事處今年將擴招人手，探索在硅谷投資科技、健康和綠色項目。規模高達2000億美元的韓國主權財富基金—
AI特效、虛擬人、數字盲盒，來看看元宇宙如何融合冬奧會！

今天是冬奧會比賽的第12天，截至目前所累計的成績，中國代表團已經取得了冬奧歷史最佳戰績。全世界的人都在關注著這場盛事，為奧運健兒吶喊助威。谷愛凌、徐夢桃、
上海虹口成立10億元元宇宙基金，香港首只元宇宙ETF擬上市

區塊鏈日報17日訊今日《元宇宙新鮮事》有：上海虹口將成立總額約10億元的元宇宙產業基金；香港市場首只元宇宙主題ETF擬于2月21日上市；元宇宙平臺Roblox出現違禁游
NFT教育要從娃娃抓起！這些青少年藝術家已經賺取了幾千萬美金

一些藝術家通過將他們的創作作為NFT出售而獲得了巨大收益。令人驚訝的是，許多賺取了數百萬美元的藝術家們仍在讀高中。這可能有點讓人難以置信。然而，請記住，在短
解決NFT流動性問題：一文了解Floor DAO

流動性是證券市場上的一個術語，流動性是指資產在不影響其市場價格的情況下可以轉換為現成現金的效率，流動性最強的資產是現金本身。現在讓我們試著從流動性的角
下一個黃金賽道？NFT的碎片化!

碎片化可能是我們一生中最重要的一個投資趨勢，碎片化本身并不新鮮。它已經存在了400年之久。早在1602年，荷蘭東印度公司是歷史上第一家在公共證券交易所上市的公
NFT高玩必備：NFT分析工具大盤點

NFT市場的火熱讓越來越多的投資者投身其中，但當前的 NFT 生態系統存在幾個問題卻困擾了大多數人，如難以準確評估 NFT 項目的資產價格、缺乏 NFT 市場動態信息、
NFT行業周報：NBA巨星勒布朗·詹姆斯申請NFT相關商標

1. “無聊猿”BAYC交易總額突破14億美元3月10日，據DappRader最新數據顯示，“無聊猿”Bored Ape Yacht Club（BAYC）交易總額已突破14億美元，創下歷史新高，本文撰寫時為

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

“人類終極考試”基準測試發布：頂級 AI 系統表現慘淡，回答準確率均未超 10%

在數字世界再造世界杯，元宇宙體育正變得越來越豐滿

韓國主權基金增加對硅谷初創公司投資押注元宇宙和人工智能

AI特效、虛擬人、數字盲盒，來看看元宇宙如何融合冬奧會！

上海虹口成立10億元元宇宙基金，香港首只元宇宙ETF擬上市

NFT教育要從娃娃抓起！這些青少年藝術家已經賺取了幾千萬美金

解決NFT流動性問題：一文了解Floor DAO

下一個黃金賽道？NFT的碎片化!

NFT高玩必備：NFT分析工具大盤點

NFT行業周報：NBA巨星勒布朗·詹姆斯申請NFT相關商標

最新推薦

比特幣的價格越高，使用價值越大

元宇宙是推動NFT發展的初始家園

NFT Insider #47：YGG發布2021Q4社區報告，GameFi領域1月份獲超10億美元融資

Web 3如何改變傳統HR

NFT領域，我們是否應該遵守版權法

FTX 加密貨幣交易所開始向游戲公司提供加密服務

猜你喜歡

熱門推薦

相關資訊