當前位置：首頁 > 元宇宙 > AI

OpenAI GPT-5 編程成績有貓膩：自刪 23 道測試題，關鍵基準還是自己提的

來源：責編：時間：2025-08-14 10:20:17 58觀看

導讀別急著用 GPT-5 編程了，可能它能力沒有你想象中那么強。有人發(fā)現(xiàn)，官方測試編程能力用的 SWE-bench Verified，但貨不對板，只用了 477 個問題。什么意思呢？我們知道，SWE-bench 是評估模型 / 智能體自主編程能力的一個

別急著用 GPT-5 編程了，可能它能力沒有你想象中那么強。

有人發(fā)現(xiàn)，官方測試編程能力用的 SWE-bench Verified，但貨不對板，只用了 477 個問題。

什么意思呢？我們知道，SWE-bench 是評估模型 / 智能體自主編程能力的一個通用且常用的指標。而 SWE-bench Verified 作為它的子集，本來一共有 500 個問題。

現(xiàn)在相當于 OpenAI 自行省略的那 23 個問題，自己搞了個子集的“子集”來評估模型能力。

而如果這些題默認零分，那么得分實際上是比 Claude Opus 4.1 還要低的。因為現(xiàn)在僅有 0.4% 的差距。

OpenAI 這種自行忽略 23 道題的操作，已經不是第一次了。

早在 GPT-4.1 發(fā)布時就信誓旦旦地說，之所以忽略是因為這些問題的解決方案無法在他們的基礎設施運行。

離譜了朋友們！要知道 SWE-bench Verified 這個 OpenAI 自己提的，理由也是因為 SWE-bench 無法系統(tǒng)評估模型的編程能力，所以決定自己再提煉一個子集。

現(xiàn)在又因為測試題無法正常運行，所以自行又搞了個子集的“子集”。

本來以為 GPT-5 直播里出現(xiàn)圖表錯誤已經夠離譜了，結果現(xiàn)在告訴我這里面的成績可能還有假？

OpenAI 一直省略 23 個問題

已經開始有網(wǎng)友發(fā)現(xiàn)，GPT-5 能力并不比 Claude 4.1 Opus 好多少。

現(xiàn)在來看，這個官方給的結果或許根本沒有參考價值。

網(wǎng)友們除了自行忽略部分測試題，“偽造了結果”這一發(fā)現(xiàn)外，還發(fā)現(xiàn)，他們是將具有最大思維努力的 GPT-5 與沒有擴展思維僅靠原始模型輸出的 Opus 4.1 進行比較。這種比較實際上沒有參考意義。

而他們之所以只使用 477 個問題來測試，理由也跟 GPT-4.1 發(fā)布時一樣，因為他們內部的基礎設施運行不了剩下的 23 個問題。

今年 4 月份發(fā)布 GPT-4.1 時，在同一基準僅使用 477 個問題下得得分在 54.6%。

當時官方還指出，如果保守地將這些問題的得分定為 0，那么 54.6% 的得分就變成了 52.1%。即便是這樣，這個數(shù)值放在當時也是最高的。

而 Anthropic 這邊，其實也已經發(fā)現(xiàn)了 OpenAI 這個操作。

就在 Claude Opus 4.1 發(fā)布公布編程成績之時，在文章的末尾有這么一句話。

對于 Claude 4 系列模型，他們繼續(xù)使用相同的簡單框架，該框架僅為模型配備了兩種工具 —— 一個 Bash 工具和一個通過字符串替換進行文件編輯的工具，并且不再包含 Claude 3.7 Sonnet 中使用的第三個“規(guī)劃工具”。

并在最后注明：在所有 Claude 4 模型中，他們報告的分數(shù)基于完整的 500 個問題。OpenAI 模型的得分基于 477 道問題的子集進行報告。

基準還是 OpenAI 自己提的

如果說，SWE-bench Verified 還是 OpenAI 自己提的基準，那這件事就更離譜了。

這不就相當于自己搬起石頭砸自己的腳啦嘛。

當時啊還是因為類似的原因 —— 他們測試發(fā)現(xiàn) SWE-bench 的一些任務可能難以解決甚至無法解決，導致 SWE-bench 無法系統(tǒng)性評估模型的自主編程能力。

于是乎，他們決定與 SWE-bench 的作者合作，決定弄出個新版本，希望能夠提供更準確的評估。

他們共同發(fā)起了一項人工注釋活動，共有 93 位資深程序員參與進來，以篩選 SWE-bench 測試集每個樣本，從而獲得適當范圍的單元測試和明確指定的問題描述。

他們隨機抽取了 1699 個樣本，然后基于統(tǒng)一標準來進行標注。

比如，問題描述是否明確？每個注釋都有一個標簽，范圍從 [0, 1, 2, 3]，嚴重程度依次遞增。

標簽 0 和 1 表示輕微；標簽 2 和 3 表示嚴重，表示樣本在某些方面存在缺陷，應予以丟棄。

此外，我們還會評估每個示例的難度，方法是讓注釋者估算開發(fā)人員確定并實現(xiàn)解決方案所需的時間。

最終得到了 500 個經過驗證的樣本，并且按照難度對數(shù)據(jù)集進行細分。“簡單”子集包含 196 個小于 15 分鐘的修復任務，而“困難”子集包含 45 個大于 1 小時的任務。

結果現(xiàn)在這個子集又被 OpenAI 縮減了。

One More Thing

不過，還是有個總榜單或許值得參考，就是那個最原始的 SWE-bench。

在這個榜單中，Claude 4 Opus 還是占據(jù)著領先位置。

GPT-5 也已經發(fā)過好一陣了，不知道你有沒有這樣類似的編程體驗呀？歡迎在評論區(qū)與我們分享。

參考鏈接：

[1]https://www.swebench.com/

[2]https://openai.com/index/introducing-gpt-5/

[3]https://www.anthropic.com/news/claude-opus-4-1

[4]https://x.com/SemiAnalysis_/status/1955028150217478177

[5]https://x.com/DavidOndrej1/status/1954158161721487482

本文來自微信公眾號：量子位（ID：QbitAI），作者：白交，原標題《GPT-5 編程成績有貓膩！自刪 23 道測試題，關鍵基準還是自己提的》

本文鏈接：http://www.www897cc.com/showinfo-45-26086-0.htmlOpenAI GPT-5 編程成績有貓膩：自刪 23 道測試題，關鍵基準還是自己提的

聲明：本網(wǎng)頁內容旨在傳播知識，若有侵權等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：英特爾升級多顯卡 AI 推理，Battlematrix 整體性能最高提升 80%

下一篇：超 98% 參賽者：OpenAI 神秘 AI 模型首次斬獲信息學奧賽 IOI 2025 金牌

標簽：

熱門焦點

關于ChatGPT的10點思考

作者：晏濤三壽近日ChatGPT又有大動作。5月19日，OpenAI在官網(wǎng)宣布正式發(fā)布App應用，并登錄蘋果應用商店。與網(wǎng)頁版的聊天機器人相比，iOS應用程序的發(fā)布有望讓更多人接觸到ChatGPT
數(shù)字人的新革命，BAT的“沖高”戰(zhàn)場

來源：劉曠ChatGPT橫空出世，讓人們看到了數(shù)字人的另一種可能，將ChatGPT與虛擬數(shù)字人融合，研發(fā)出更加智能化、擬人化的虛擬數(shù)字人成為數(shù)字人廠商的新命題、新方向。2月份，嶺南股份
汽車元宇宙，是概念還是未來？

作者｜何文元宇宙是未來趨勢已經無需驗證。從概念上來看，元宇宙是兩種存在多年的概念的融合：虛擬現(xiàn)實和數(shù)字第二人生。這也就意味著，元宇宙所代表的是一種新的數(shù)
2022開年最熱投資賽道竟是虛擬人，背后隱藏了什么商業(yè)價值？

在剛剛結束不久的2021年江蘇衛(wèi)視跨年演唱會上，虛擬鄧麗君與歌手周深同臺聯(lián)唱，實現(xiàn)了跨時代合作，而這還不只是“鄧麗君”，嗶哩嗶哩、東方衛(wèi)視等多家跨年晚會都出現(xiàn)
好萊塢：一股新的電影制作加密浪潮將顛覆這個行業(yè)

在Moviecoin.com平臺上，有一部電影設定了一個前所未有的目標，即通過預售NFT獲得100%的全額融資，這部電影就是馬克·奧康納(Mark O’connor)執(zhí)導的《Oui Cannes》，
MR——元宇宙平臺的下一代入口

作為“元宇宙”的領頭羊，Meta的一舉一動都受到業(yè)內的高度關注。華爾街見聞提及，2月17日周四，F(xiàn)acebook母公司Meta在透露，其混合現(xiàn)實技術（MR）將在幾年后實現(xiàn)，讓人們對元
PayPal CEO 的加密語錄：加密貨幣將重新定義金融世界

PayPal 近年來一直是加密行業(yè)的倡導者。這個本身擁有超過 3.5 億名活躍用戶的支付巨頭，已經允許美國和英國的用戶交易或持有比特幣（BTC）、以太坊（ETH）、比特現(xiàn)金（BCH
76億美金估值、2022年最具創(chuàng)新力公司，Dapper Labs如何做到？

“元宇宙的開拓者”是我們針對元宇宙的發(fā)展而設立的專欄，主要面向那些深挖元宇宙產業(yè)或者在元宇宙進行“淘金”的從業(yè)者，分享這些企業(yè)或者創(chuàng)業(yè)者們的故事，以獨特
TX加入的NFT數(shù)字收藏品，元宇宙的破圈之路?

3月7日，澳大利亞 NFT 初創(chuàng)公司 Immutable 在新加坡淡馬錫牽頭的R資中以估值 25 億美元完成2億美元R資，騰訊參投。想必國人最熟知的應該就是TX，作為國內四大互聯(lián)網(wǎng)

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

OpenAI GPT-5 編程成績有貓膩：自刪 23 道測試題，關鍵基準還是自己提的

關于ChatGPT的10點思考

數(shù)字人的新革命，BAT的“沖高”戰(zhàn)場

汽車元宇宙，是概念還是未來？

2022開年最熱投資賽道竟是虛擬人，背后隱藏了什么商業(yè)價值？

好萊塢：一股新的電影制作加密浪潮將顛覆這個行業(yè)

MR——元宇宙平臺的下一代入口

PayPal CEO 的加密語錄：加密貨幣將重新定義金融世界

76億美金估值、2022年最具創(chuàng)新力公司，Dapper Labs如何做到？

TX加入的NFT數(shù)字收藏品，元宇宙的破圈之路?

最新推薦

在數(shù)字世界再造世界杯，元宇宙體育正變得越來越豐滿

中國區(qū)塊鏈產業(yè)生態(tài)地圖報告（2021）

銀保監(jiān)會：打擊以“元宇宙”為名義的違法行為

頭頂光環(huán)無數(shù)卻估值極低，以太坊這位&——quot;最強殺手&——quot;有望涅槃重生？

盤點9個主流元宇宙平臺，你都知道哪些？

Staking 收益翻倍？

猜你喜歡

熱門推薦

相關資訊