當前位置：首頁 > 元宇宙 > AI

OpenAI o3模型實測分數引爭議，透明度與測試標準成焦點

來源：責編：時間：2025-04-21 09:46:20 69觀看

導讀近期，關于OpenAI的o3人工智能模型在基準測試上的表現引發了廣泛關注與討論。爭議的核心在于，OpenAI首次發布o3模型時公布的測試結果與外界第三方機構的測試結果存在顯著差異。去年12月，OpenAI自豪地宣布，其o3模型在極具難

近期，關于OpenAI的o3人工智能模型在基準測試上的表現引發了廣泛關注與討論。爭議的核心在于，OpenAI首次發布o3模型時公布的測試結果與外界第三方機構的測試結果存在顯著差異。

去年12月，OpenAI自豪地宣布，其o3模型在極具難度的FrontierMath數學問題集上取得了突破性成績，正確率超過四分之一，遠超其他競爭對手。OpenAI首席研究官Mark Chen在直播中強調，這一成績是在內部激進測試條件下，使用資源更為強大的o3模型版本所得出的。

然而，事情并未如此簡單。負責FrontierMath的Epoch研究所隨后公布的獨立基準測試結果顯示，公開發布的o3模型得分僅為約10%，遠低于OpenAI宣稱的分數。這一發現立即引發了外界對OpenAI透明度和測試實踐的質疑。

值得注意的是，OpenAI在12月公布的測試結果中確實包含了一個與Epoch測試結果相符的較低分數。Epoch在報告中指出，測試設置的差異、評估使用的FrontierMath版本更新，以及可能的計算資源和框架不同，都可能是導致結果差異的原因。

ARC Prize基金會也在X平臺上發布消息，進一步證實了Epoch的報告。ARC Prize指出，公開發布的o3模型是一個針對聊天和產品使用進行了調整的不同版本，且所有發布的o3計算層級都比預發布版本要小。這意味著，盡管o3模型在內部測試中取得了高分，但公開發布的版本在性能上有所妥協。

盡管如此，OpenAI并未因此止步。該公司后續推出的o3-mini-high和o4-mini模型在FrontierMath上的表現已經超越了最初的o3模型。同時，OpenAI還計劃在未來幾周內推出更強大的o3版本——o3-pro。

然而，這一系列事件再次凸顯了人工智能基準測試結果的復雜性和不確定性。尤其是當這些結果來自有產品需要銷售的公司時，外界對其真實性和可靠性的質疑聲往往會更加響亮。隨著人工智能行業的競爭加劇，各供應商紛紛急于推出新模型以吸引眼球和市場份額，基準測試“爭議”正變得越來越普遍。

事實上，類似的爭議并非個例。今年1月，Epoch因在OpenAI宣布o3之后才披露其從OpenAI獲得的資金支持而受到批評。許多為FrontierMath做出貢獻的學者直到公開時才知道OpenAI的參與。而最近，埃隆·馬斯克的xAI也被指控為其最新的人工智能模型Grok 3發布了誤導性的基準測試圖表。就在本月，meta也承認其宣傳的基準測試分數所基于的模型版本與提供給開發者的版本不一致。

舉報 0收藏 0打賞 0評論 0

更多>同類資訊

余凱論智能駕駛：軟硬結合是王道，品牌差異難靠此打造

04-21

人機共跑！北京天工Ultra機器人首奪人形機器人馬拉松冠軍

在具身智能大腦能力構建上，百度智能云為北京人形機器人創新中心提供了百舸AI異構計算平臺以及高性能、穩定可靠的AI算力，實現算力高效調度并顯著提升大模型的訓推性能，助力天工機器人將集群有效訓練時長提升至98.…

04-21

ChatGPT喊你名字了？用戶反應不一，個性化嘗試遭遇“恐怖谷”

近期，部分 ChatGPT 用戶注意到一個現象：這款人工智能聊天機器人在與用戶互動和進行邏輯推理時，會直接稱呼用戶的名字。一些用戶在 X 平臺上表示，即便他們已經禁用了記憶功能及相關的個性化設置，ChatGP…

04-20

數勢科技實力彰顯！入榜IDC中國AI Agent應用市場報告成標桿

04-20

數勢科技AIGC峰會奪雙獎，發布白皮書領跑決策智能新賽道

04-20

魔琺科技與洲明科技攜手，共創AI數字人沉浸式交互新紀元

04-20

百度三年開放2.1萬實習崗，全力培育AI領域未來領袖

04-20

AI禮貌回復背后：數千萬美元開銷，你的“謝謝”值多少？

04-20

vivo X200 Ultra震撼發布：影像巔峰，手機界的攝影大師？

04-20

微軟CTO凱文·斯科特：未來AI將涌現大量專業Agent

在最新的訪談中，微軟CTO Kevin Scott發表關于AI的系列觀點。他認為：我不認同那種 “一個Agent搞定一切” 的理論，會出現大量Agent。他們需要深入了解所在領域的特點，幫助建立反饋閉環…

04-20

百度三年內將提供2.1萬實習崗位，力推校園人才轉正計劃

04-20

vivo X200 Ultra：影像巔峰，手機界的攝影大師來襲！

04-20

優刻得2025Q1財報：營收增至3.76億，凈虧損收窄至4473萬

04-19

算力賦能影視創新，博大數據高輝共話電影工業未來

04-19

德施曼新品發布會預告：AI賦能，智能鎖技術革命再升級？

04-19

點擊查看更多 +

全站最新

Xbox云游戲火爆：月游戲時長數千萬小時，斯賓塞稱增長迅猛

《風暴崛起》意外提前發售，RTS 游戲品類能否借此東風重回巔峰？

哈弗梟龍MAX：全民四驅新時代，家庭SUV的理性之選？

微信朋友圈動圖功能來了？小米用戶即將體驗灰度測試

特斯拉高管陶琳呼吁：停售影響行車安全的第三方配件，珍愛生命！

ChatGPT禮貌回應成本驚人，山姆奧特曼透露耗資達百萬美元級

熱門內容

某大廠大模型高管涉婚變，公司賬號停用引熱議
立陶宛高校：學生不當使用AI，學術不端遭開除
諾獎得主彭羅斯：AI無真正意識，不應等同人類智能
ChatGPT喊你名字了？用戶反應不一，個性化嘗試遭遇“恐怖谷”
比爾·蓋茨展望：AI將深度改造行業，人類生來不為工作？
華為4月新品大爆發：智能眼鏡鈦空版、門鎖2系列及星閃路由X1來襲
魅族愚人節“玩笑”？官宣跨世代AI硅基人戰神Note 16號僅售1999元
豆包大模型負責人飛書停用，內部風波起？真相待解
AI預測彩票中獎？專家揭秘：中獎號碼隨機，預測純屬騙局
快手2024成績單：年營收破千億，AI驅動內容與商業生態再升級
國產芯片設備新突破：新凱來發布31款新品，半導體產業迎黃金年代？
華為三進制芯片專利公布：信息密度與計算效率能否迎來革命？
OPPO小布助手網頁版來襲，滿血版DeepSeek加持體驗升級！
TIOBE 4月編程語言榜：Python穩居榜首，Kotlin、Ruby、Swift地位受挑戰
谷歌Firebase Studio上線：AI云端IDE，輕松秒建多樣應用

本欄最新

OpenAI o3模型實測分數引爭議，透明度與測試標準成焦點

余凱論智能駕駛：軟硬結合是王道，品牌差異難靠此打造

人機共跑！北京天工Ultra機器人首奪人形機器人馬拉松冠軍

數勢科技實力彰顯！入榜IDC中國AI Agent應用市場報告成標桿

數勢科技AIGC峰會奪雙獎，發布白皮書領跑決策智能新賽道

魔琺科技與洲明科技攜手，共創AI數字人沉浸式交互新紀元

本文鏈接：http://www.www897cc.com/showinfo-45-12432-0.htmlOpenAI o3模型實測分數引爭議，透明度與測試標準成焦點

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： AI醫療診斷能力初顯：平均準確率媲美非專家醫生

下一篇：余凱論智能駕駛：軟硬結合是王道，品牌差異難靠此打造

標簽：

熱門焦點

ChatGPT訪問量增速下滑，AI真的是一場泡沫嗎？

來源：首席商業評論2023年，最火的莫過于ChatGPT，席卷全球的同時也引發了生成式AI（人工智能）的投資熱潮。在美股，ChatGPT相關概念股飆漲，以AI算力龍頭英偉達為例，其股價年內一度累計上
花房集團上市，走向元宇宙新征程

文 | 港股研究社作者 | 熊生12月12日，花房集團在港交所成功上市，首日便受到追捧，當日最高漲幅達28.75%。繼360、360數科、魯大師后，這是“紅衣教主”周
虛擬數字人：元宇宙的主角破圈而來

虛擬數字人市場逐步進入成熟期，商業化進程加速。1982年世界第一位虛擬歌姬林明美誕生，虛擬數字人行業經歷了萌芽、探索、初級和成長四個階段。隨技術逐年突破，制
2030年的元宇宙產業將會如何發展？

對互聯網巨頭傳統業務的反壟斷政策倒逼互聯網企業顛覆創新，尋找新的增長點，移動互聯網流量空間見頂之際，元宇宙時代紅利已然開啟。序章：元宇宙應用場景大猜想元宇
韓國建立元宇宙生態系統，智度股份發布元宇宙社區Meta彼岸

財聯社|區塊鏈日報28日訊今日《元宇宙新鮮事》有：杭州第十三次黨代會報告指出抓緊布局元宇宙等未來產業；韓國科學信息通信技術部宣布投資1.85億美元建立元宇宙
NFT盜竊案：為什么NFT市場被盜竊和黑客所困擾？

Block-806NFT的增長值得關注。許多人愿意為數字藝術支付數百萬美元，世界正在走向數字化。報告顯示，NFT市場和NFT收藏從2020年的1.06億美元增加到了2021年的442億
參加元宇宙里的招聘會是什么樣一種體驗？

求職者可以在活動中走動，就像他們在現實生活中一樣。長話短說看亮點：招聘公司Hirect為Y-combinator支持的初創公司舉辦了一場元宇宙招聘會。這里有一個大廳、一
Staking 收益翻倍？

以太坊質押可能很快就會有兩倍的利潤。Coinbase 估計，在 1 月份以太坊網絡合并后，持有 ETH 的回報將翻倍。增長預期假設來自加密貨幣交易所 Coinbase 的估計是準
虛擬偶像行業的商用價值逐漸凸顯，IP生態圈也逐漸成型

六月的第一個周六，一場虛擬偶像七海Nana7mi的個人3D演唱會在萬代南夢宮上海文化中心舉行，相較于洛天依、百大UP主泠鳶yousa等，這位虛擬Up主在B站上的粉絲數43.6萬

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

OpenAI o3模型實測分數引爭議，透明度與測試標準成焦點

ChatGPT訪問量增速下滑，AI真的是一場泡沫嗎？

花房集團上市，走向元宇宙新征程

虛擬數字人：元宇宙的主角破圈而來

2030年的元宇宙產業將會如何發展？

韓國建立元宇宙生態系統，智度股份發布元宇宙社區Meta彼岸

NFT盜竊案：為什么NFT市場被盜竊和黑客所困擾？

參加元宇宙里的招聘會是什么樣一種體驗？

Staking 收益翻倍？

虛擬偶像行業的商用價值逐漸凸顯，IP生態圈也逐漸成型

最新推薦

AI界地震！美國對OpenAI展開調查！監管風暴來襲！

上、中、下游加深融合，搭建元宇宙產業全景

搭上“谷愛凌”，“柳夜熙們”站上風口？

城市數字孿生標準化白皮書（2022版）

索尼公布PSVR 2頭顯渲染圖；社區開發者發布Quest版《我的世界》

初探元宇宙

猜你喜歡

熱門推薦

相關資訊