日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

OpenAI GPT-5 編程成績有貓膩:自刪 23 道測試題,關鍵基準還是自己提的

來源: 責編: 時間:2025-08-14 10:20:17 13觀看
導讀 別急著用 GPT-5 編程了,可能它能力沒有你想象中那么強。有人發現,官方測試編程能力用的 SWE-bench Verified,但貨不對板,只用了 477 個問題。什么意思呢?我們知道,SWE-bench 是評估模型 / 智能體自主編程能力的一個

別急著用 GPT-5 編程了,可能它能力沒有你想象中那么強。Nxc28資訊網——每日最新資訊28at.com

有人發現,官方測試編程能力用的 SWE-bench Verified,但貨不對板,只用了 477 個問題。Nxc28資訊網——每日最新資訊28at.com

Nxc28資訊網——每日最新資訊28at.com

什么意思呢?我們知道,SWE-bench 是評估模型 / 智能體自主編程能力的一個通用且常用的指標。而 SWE-bench Verified 作為它的子集,本來一共有 500 個問題。Nxc28資訊網——每日最新資訊28at.com

現在相當于 OpenAI 自行省略的那 23 個問題,自己搞了個子集的“子集”來評估模型能力。Nxc28資訊網——每日最新資訊28at.com

而如果這些題默認零分,那么得分實際上是比 Claude Opus 4.1 還要低的。因為現在僅有 0.4% 的差距。Nxc28資訊網——每日最新資訊28at.com

Nxc28資訊網——每日最新資訊28at.com

OpenAI 這種自行忽略 23 道題的操作,已經不是第一次了。Nxc28資訊網——每日最新資訊28at.com

早在 GPT-4.1 發布時就信誓旦旦地說,之所以忽略是因為這些問題的解決方案無法在他們的基礎設施運行。Nxc28資訊網——每日最新資訊28at.com

Nxc28資訊網——每日最新資訊28at.com

離譜了朋友們!要知道 SWE-bench Verified 這個 OpenAI 自己提的,理由也是因為 SWE-bench 無法系統評估模型的編程能力,所以決定自己再提煉一個子集。Nxc28資訊網——每日最新資訊28at.com

現在又因為測試題無法正常運行,所以自行又搞了個子集的“子集”。Nxc28資訊網——每日最新資訊28at.com

本來以為 GPT-5 直播里出現圖表錯誤已經夠離譜了,結果現在告訴我這里面的成績可能還有假?Nxc28資訊網——每日最新資訊28at.com

Nxc28資訊網——每日最新資訊28at.com

OpenAI 一直省略 23 個問題

已經開始有網友發現,GPT-5 能力并不比 Claude 4.1 Opus 好多少。Nxc28資訊網——每日最新資訊28at.com

現在來看,這個官方給的結果或許根本沒有參考價值。Nxc28資訊網——每日最新資訊28at.com

網友們除了自行忽略部分測試題,“偽造了結果”這一發現外,還發現,他們是將具有最大思維努力的 GPT-5 與沒有擴展思維僅靠原始模型輸出的 Opus 4.1 進行比較。這種比較實際上沒有參考意義。Nxc28資訊網——每日最新資訊28at.com

Nxc28資訊網——每日最新資訊28at.com

而他們之所以只使用 477 個問題來測試,理由也跟 GPT-4.1 發布時一樣,因為他們內部的基礎設施運行不了剩下的 23 個問題。Nxc28資訊網——每日最新資訊28at.com

Nxc28資訊網——每日最新資訊28at.com

今年 4 月份發布 GPT-4.1 時,在同一基準僅使用 477 個問題下得得分在 54.6%。Nxc28資訊網——每日最新資訊28at.com

當時官方還指出,如果保守地將這些問題的得分定為 0,那么 54.6% 的得分就變成了 52.1%。即便是這樣,這個數值放在當時也是最高的。Nxc28資訊網——每日最新資訊28at.com

Nxc28資訊網——每日最新資訊28at.com

而 Anthropic 這邊,其實也已經發現了 OpenAI 這個操作。Nxc28資訊網——每日最新資訊28at.com

就在 Claude Opus 4.1 發布公布編程成績之時,在文章的末尾有這么一句話。Nxc28資訊網——每日最新資訊28at.com

Nxc28資訊網——每日最新資訊28at.com

對于 Claude 4 系列模型,他們繼續使用相同的簡單框架,該框架僅為模型配備了兩種工具 —— 一個 Bash 工具和一個通過字符串替換進行文件編輯的工具,并且不再包含 Claude 3.7 Sonnet 中使用的第三個“規劃工具”。Nxc28資訊網——每日最新資訊28at.com

并在最后注明:在所有 Claude 4 模型中,他們報告的分數基于完整的 500 個問題。OpenAI 模型的得分基于 477 道問題的子集進行報告。Nxc28資訊網——每日最新資訊28at.com

Nxc28資訊網——每日最新資訊28at.com

基準還是 OpenAI 自己提的

如果說,SWE-bench Verified 還是 OpenAI 自己提的基準,那這件事就更離譜了。Nxc28資訊網——每日最新資訊28at.com

這不就相當于自己搬起石頭砸自己的腳啦嘛。Nxc28資訊網——每日最新資訊28at.com

Nxc28資訊網——每日最新資訊28at.com

當時啊還是因為類似的原因 —— 他們測試發現 SWE-bench 的一些任務可能難以解決甚至無法解決,導致 SWE-bench 無法系統性評估模型的自主編程能力。Nxc28資訊網——每日最新資訊28at.com

于是乎,他們決定與 SWE-bench 的作者合作,決定弄出個新版本,希望能夠提供更準確的評估。Nxc28資訊網——每日最新資訊28at.com

他們共同發起了一項人工注釋活動,共有 93 位資深程序員參與進來,以篩選 SWE-bench 測試集每個樣本,從而獲得適當范圍的單元測試和明確指定的問題描述。Nxc28資訊網——每日最新資訊28at.com

他們隨機抽取了 1699 個樣本,然后基于統一標準來進行標注。Nxc28資訊網——每日最新資訊28at.com

比如,問題描述是否明確?每個注釋都有一個標簽,范圍從 [0, 1, 2, 3],嚴重程度依次遞增。Nxc28資訊網——每日最新資訊28at.com

標簽 0 和 1 表示輕微;標簽 2 和 3 表示嚴重,表示樣本在某些方面存在缺陷,應予以丟棄。Nxc28資訊網——每日最新資訊28at.com

Nxc28資訊網——每日最新資訊28at.com

此外,我們還會評估每個示例的難度,方法是讓注釋者估算開發人員確定并實現解決方案所需的時間。Nxc28資訊網——每日最新資訊28at.com

最終得到了 500 個經過驗證的樣本,并且按照難度對數據集進行細分。“簡單”子集包含 196 個小于 15 分鐘的修復任務,而“困難”子集包含 45 個大于 1 小時的任務。Nxc28資訊網——每日最新資訊28at.com

結果現在這個子集又被 OpenAI 縮減了。Nxc28資訊網——每日最新資訊28at.com

One More Thing

不過,還是有個總榜單或許值得參考,就是那個最原始的 SWE-bench。Nxc28資訊網——每日最新資訊28at.com

在這個榜單中,Claude 4 Opus 還是占據著領先位置。Nxc28資訊網——每日最新資訊28at.com

Nxc28資訊網——每日最新資訊28at.com

GPT-5 也已經發過好一陣了,不知道你有沒有這樣類似的編程體驗呀?歡迎在評論區與我們分享。Nxc28資訊網——每日最新資訊28at.com

參考鏈接:Nxc28資訊網——每日最新資訊28at.com

[1]https://www.swebench.com/Nxc28資訊網——每日最新資訊28at.com

[2]https://openai.com/index/introducing-gpt-5/Nxc28資訊網——每日最新資訊28at.com

[3]https://www.anthropic.com/news/claude-opus-4-1Nxc28資訊網——每日最新資訊28at.com

[4]https://x.com/SemiAnalysis_/status/1955028150217478177Nxc28資訊網——每日最新資訊28at.com

[5]https://x.com/DavidOndrej1/status/1954158161721487482Nxc28資訊網——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:白交,原標題《GPT-5 編程成績有貓膩!自刪 23 道測試題,關鍵基準還是自己提的》Nxc28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-26086-0.htmlOpenAI GPT-5 編程成績有貓膩:自刪 23 道測試題,關鍵基準還是自己提的

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 英特爾升級多顯卡 AI 推理,Battlematrix 整體性能最高提升 80%

下一篇: 超 98% 參賽者:OpenAI 神秘 AI 模型首次斬獲信息學奧賽 IOI 2025 金牌

標簽:
  • 熱門焦點
  • 沉寂3年,大模型激活小度天貓精靈?

    Tech星球(微信ID:tech618)文 | 何煦陽 沉寂了許久的智能音箱,在今年大模型橫空出世之后,又再次燃起了新的希望。 2月9日,小度宣布將融合文心一言,打造針對智能設備場景的AI模型&ldq
  • 林俊杰、余文樂等明星相繼入局,元宇宙虛擬土地究竟有何魔力?

    上周的元宇宙和明星圈因為一則“林俊杰在推特上宣布持有Decentraland元宇宙虛擬地塊”的新聞而備受關注,該新聞一方面在娛樂圈引起了吃瓜群眾的好奇,另一方面在
  • NFT的未來:傳統企業與去中心化機構之間的競賽

    傳統企業和去中心化機構一直存在分歧,但最近NFT的爆炸式增長讓他們產生了共同的興趣,雙方都在競相讓用戶更輕松、更方便地使用NFT。毫無疑問,NFT 市場正在增長。
  • 好萊塢:一股新的電影制作加密浪潮將顛覆這個行業

    在Moviecoin.com平臺上,有一部電影設定了一個前所未有的目標,即通過預售NFT獲得100%的全額融資,這部電影就是馬克·奧康納(Mark O’connor)執導的《Oui Cannes》,
  • Terra鏈上TVL躍升至第二

    據DefiLlama數據顯示,當前,Terra鏈上應用鎖倉的加密資產價值(TVL)為172.1億美元,在公鏈板塊中已躍升至第二,超越了幣安智能鏈TVL的118億美元,TVL排名居首的仍為以太
  • 參加元宇宙里的招聘會是什么樣一種體驗?

    求職者可以在活動中走動,就像他們在現實生活中一樣。長話短說看亮點:招聘公司Hirect為Y-combinator支持的初創公司舉辦了一場元宇宙招聘會。這里有一個大廳、一
  • 就業年齡歧視如何解決?來Web3看看

    上周,我突然想到我的第一份工作實際上是在為一家失敗的航空公司制定破產退出計劃,那年我們的協議實習生剛出生。在一陣恐慌后,我又花了一點時間反思我這個擁有近1
  • 冬奧會數字收藏品升溫,市場再現“一墩難求”

    根據公開信息顯示,國際奧委會官方授權的冰墩墩數字盲盒于北京時間2月12日凌晨在nWayPlay平臺發售,總數為500個,每個99美元,每人限購5個。此外,不同的奧運徽章數字藏
  • 從概念到落地 Web3.0初具雛形

    加密資產熱潮催生出的鏈上應用中,除了DeFi、NFT、鏈游GameFi等場景外,還有一個熱詞叫「Web3.0」。Web3.0的概念最早出現在2014年,由以太坊聯合創始人及波卡創建者
Top 主站蜘蛛池模板: 南川市| 自贡市| 衡山县| 北京市| 栾川县| 余江县| 化隆| 铁岭市| 丹江口市| 珠海市| 龙江县| 顺平县| 贺兰县| 卓尼县| 临泽县| 来宾市| 惠安县| 建水县| 杭锦后旗| 陇南市| 诸城市| 威宁| 颍上县| 梧州市| 清镇市| 高陵县| 平利县| 湘西| 都安| 西乡县| 大姚县| 舞阳县| 合川市| 邻水| 色达县| 永安市| 榆中县| 阳信县| 阿拉善盟| 疏附县| 兖州市|