日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

OpenAI GPT-5 編程成績有貓膩:自刪 23 道測試題,關鍵基準還是自己提的

來源: 責編: 時間:2025-08-14 10:20:17 58觀看
導讀 別急著用 GPT-5 編程了,可能它能力沒有你想象中那么強。有人發(fā)現(xiàn),官方測試編程能力用的 SWE-bench Verified,但貨不對板,只用了 477 個問題。什么意思呢?我們知道,SWE-bench 是評估模型 / 智能體自主編程能力的一個

別急著用 GPT-5 編程了,可能它能力沒有你想象中那么強。YY628資訊網(wǎng)——每日最新資訊28at.com

有人發(fā)現(xiàn),官方測試編程能力用的 SWE-bench Verified,但貨不對板,只用了 477 個問題。YY628資訊網(wǎng)——每日最新資訊28at.com

YY628資訊網(wǎng)——每日最新資訊28at.com

什么意思呢?我們知道,SWE-bench 是評估模型 / 智能體自主編程能力的一個通用且常用的指標。而 SWE-bench Verified 作為它的子集,本來一共有 500 個問題。YY628資訊網(wǎng)——每日最新資訊28at.com

現(xiàn)在相當于 OpenAI 自行省略的那 23 個問題,自己搞了個子集的“子集”來評估模型能力。YY628資訊網(wǎng)——每日最新資訊28at.com

而如果這些題默認零分,那么得分實際上是比 Claude Opus 4.1 還要低的。因為現(xiàn)在僅有 0.4% 的差距。YY628資訊網(wǎng)——每日最新資訊28at.com

YY628資訊網(wǎng)——每日最新資訊28at.com

OpenAI 這種自行忽略 23 道題的操作,已經不是第一次了。YY628資訊網(wǎng)——每日最新資訊28at.com

早在 GPT-4.1 發(fā)布時就信誓旦旦地說,之所以忽略是因為這些問題的解決方案無法在他們的基礎設施運行。YY628資訊網(wǎng)——每日最新資訊28at.com

YY628資訊網(wǎng)——每日最新資訊28at.com

離譜了朋友們!要知道 SWE-bench Verified 這個 OpenAI 自己提的,理由也是因為 SWE-bench 無法系統(tǒng)評估模型的編程能力,所以決定自己再提煉一個子集。YY628資訊網(wǎng)——每日最新資訊28at.com

現(xiàn)在又因為測試題無法正常運行,所以自行又搞了個子集的“子集”。YY628資訊網(wǎng)——每日最新資訊28at.com

本來以為 GPT-5 直播里出現(xiàn)圖表錯誤已經夠離譜了,結果現(xiàn)在告訴我這里面的成績可能還有假?YY628資訊網(wǎng)——每日最新資訊28at.com

YY628資訊網(wǎng)——每日最新資訊28at.com

OpenAI 一直省略 23 個問題

已經開始有網(wǎng)友發(fā)現(xiàn),GPT-5 能力并不比 Claude 4.1 Opus 好多少。YY628資訊網(wǎng)——每日最新資訊28at.com

現(xiàn)在來看,這個官方給的結果或許根本沒有參考價值。YY628資訊網(wǎng)——每日最新資訊28at.com

網(wǎng)友們除了自行忽略部分測試題,“偽造了結果”這一發(fā)現(xiàn)外,還發(fā)現(xiàn),他們是將具有最大思維努力的 GPT-5 與沒有擴展思維僅靠原始模型輸出的 Opus 4.1 進行比較。這種比較實際上沒有參考意義。YY628資訊網(wǎng)——每日最新資訊28at.com

YY628資訊網(wǎng)——每日最新資訊28at.com

而他們之所以只使用 477 個問題來測試,理由也跟 GPT-4.1 發(fā)布時一樣,因為他們內部的基礎設施運行不了剩下的 23 個問題。YY628資訊網(wǎng)——每日最新資訊28at.com

YY628資訊網(wǎng)——每日最新資訊28at.com

今年 4 月份發(fā)布 GPT-4.1 時,在同一基準僅使用 477 個問題下得得分在 54.6%。YY628資訊網(wǎng)——每日最新資訊28at.com

當時官方還指出,如果保守地將這些問題的得分定為 0,那么 54.6% 的得分就變成了 52.1%。即便是這樣,這個數(shù)值放在當時也是最高的。YY628資訊網(wǎng)——每日最新資訊28at.com

YY628資訊網(wǎng)——每日最新資訊28at.com

而 Anthropic 這邊,其實也已經發(fā)現(xiàn)了 OpenAI 這個操作。YY628資訊網(wǎng)——每日最新資訊28at.com

就在 Claude Opus 4.1 發(fā)布公布編程成績之時,在文章的末尾有這么一句話。YY628資訊網(wǎng)——每日最新資訊28at.com

YY628資訊網(wǎng)——每日最新資訊28at.com

對于 Claude 4 系列模型,他們繼續(xù)使用相同的簡單框架,該框架僅為模型配備了兩種工具 —— 一個 Bash 工具和一個通過字符串替換進行文件編輯的工具,并且不再包含 Claude 3.7 Sonnet 中使用的第三個“規(guī)劃工具”。YY628資訊網(wǎng)——每日最新資訊28at.com

并在最后注明:在所有 Claude 4 模型中,他們報告的分數(shù)基于完整的 500 個問題。OpenAI 模型的得分基于 477 道問題的子集進行報告。YY628資訊網(wǎng)——每日最新資訊28at.com

YY628資訊網(wǎng)——每日最新資訊28at.com

基準還是 OpenAI 自己提的

如果說,SWE-bench Verified 還是 OpenAI 自己提的基準,那這件事就更離譜了。YY628資訊網(wǎng)——每日最新資訊28at.com

這不就相當于自己搬起石頭砸自己的腳啦嘛。YY628資訊網(wǎng)——每日最新資訊28at.com

YY628資訊網(wǎng)——每日最新資訊28at.com

當時啊還是因為類似的原因 —— 他們測試發(fā)現(xiàn) SWE-bench 的一些任務可能難以解決甚至無法解決,導致 SWE-bench 無法系統(tǒng)性評估模型的自主編程能力。YY628資訊網(wǎng)——每日最新資訊28at.com

于是乎,他們決定與 SWE-bench 的作者合作,決定弄出個新版本,希望能夠提供更準確的評估。YY628資訊網(wǎng)——每日最新資訊28at.com

他們共同發(fā)起了一項人工注釋活動,共有 93 位資深程序員參與進來,以篩選 SWE-bench 測試集每個樣本,從而獲得適當范圍的單元測試和明確指定的問題描述。YY628資訊網(wǎng)——每日最新資訊28at.com

他們隨機抽取了 1699 個樣本,然后基于統(tǒng)一標準來進行標注。YY628資訊網(wǎng)——每日最新資訊28at.com

比如,問題描述是否明確?每個注釋都有一個標簽,范圍從 [0, 1, 2, 3],嚴重程度依次遞增。YY628資訊網(wǎng)——每日最新資訊28at.com

標簽 0 和 1 表示輕微;標簽 2 和 3 表示嚴重,表示樣本在某些方面存在缺陷,應予以丟棄。YY628資訊網(wǎng)——每日最新資訊28at.com

YY628資訊網(wǎng)——每日最新資訊28at.com

此外,我們還會評估每個示例的難度,方法是讓注釋者估算開發(fā)人員確定并實現(xiàn)解決方案所需的時間。YY628資訊網(wǎng)——每日最新資訊28at.com

最終得到了 500 個經過驗證的樣本,并且按照難度對數(shù)據(jù)集進行細分。“簡單”子集包含 196 個小于 15 分鐘的修復任務,而“困難”子集包含 45 個大于 1 小時的任務。YY628資訊網(wǎng)——每日最新資訊28at.com

結果現(xiàn)在這個子集又被 OpenAI 縮減了。YY628資訊網(wǎng)——每日最新資訊28at.com

One More Thing

不過,還是有個總榜單或許值得參考,就是那個最原始的 SWE-bench。YY628資訊網(wǎng)——每日最新資訊28at.com

在這個榜單中,Claude 4 Opus 還是占據(jù)著領先位置。YY628資訊網(wǎng)——每日最新資訊28at.com

YY628資訊網(wǎng)——每日最新資訊28at.com

GPT-5 也已經發(fā)過好一陣了,不知道你有沒有這樣類似的編程體驗呀?歡迎在評論區(qū)與我們分享。YY628資訊網(wǎng)——每日最新資訊28at.com

參考鏈接:YY628資訊網(wǎng)——每日最新資訊28at.com

[1]https://www.swebench.com/YY628資訊網(wǎng)——每日最新資訊28at.com

[2]https://openai.com/index/introducing-gpt-5/YY628資訊網(wǎng)——每日最新資訊28at.com

[3]https://www.anthropic.com/news/claude-opus-4-1YY628資訊網(wǎng)——每日最新資訊28at.com

[4]https://x.com/SemiAnalysis_/status/1955028150217478177YY628資訊網(wǎng)——每日最新資訊28at.com

[5]https://x.com/DavidOndrej1/status/1954158161721487482YY628資訊網(wǎng)——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:白交,原標題《GPT-5 編程成績有貓膩!自刪 23 道測試題,關鍵基準還是自己提的》YY628資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-26086-0.htmlOpenAI GPT-5 編程成績有貓膩:自刪 23 道測試題,關鍵基準還是自己提的

聲明:本網(wǎng)頁內容旨在傳播知識,若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 英特爾升級多顯卡 AI 推理,Battlematrix 整體性能最高提升 80%

下一篇: 超 98% 參賽者:OpenAI 神秘 AI 模型首次斬獲信息學奧賽 IOI 2025 金牌

標簽:
  • 熱門焦點
  • 關于ChatGPT的10點思考

    作者:晏濤三壽近日ChatGPT又有大動作。5月19日,OpenAI在官網(wǎng)宣布正式發(fā)布App應用,并登錄蘋果應用商店。與網(wǎng)頁版的聊天機器人相比,iOS應用程序的發(fā)布有望讓更多人接觸到ChatGPT
  • 數(shù)字人的新革命,BAT的“沖高”戰(zhàn)場

    來源:劉曠ChatGPT橫空出世,讓人們看到了數(shù)字人的另一種可能,將ChatGPT與虛擬數(shù)字人融合,研發(fā)出更加智能化、擬人化的虛擬數(shù)字人成為數(shù)字人廠商的新命題、新方向。2月份,嶺南股份
  • 汽車元宇宙,是概念還是未來?

    作者|何文 元宇宙是未來趨勢已經無需驗證。 從概念上來看,元宇宙是兩種存在多年的概念的融合:虛擬現(xiàn)實和數(shù)字第二人生。這也就意味著,元宇宙所代表的是一種新的數(shù)
  • 2022開年最熱投資賽道竟是虛擬人,背后隱藏了什么商業(yè)價值?

    在剛剛結束不久的2021年江蘇衛(wèi)視跨年演唱會上,虛擬鄧麗君與歌手周深同臺聯(lián)唱,實現(xiàn)了跨時代合作,而這還不只是“鄧麗君”,嗶哩嗶哩、東方衛(wèi)視等多家跨年晚會都出現(xiàn)
  • 好萊塢:一股新的電影制作加密浪潮將顛覆這個行業(yè)

    在Moviecoin.com平臺上,有一部電影設定了一個前所未有的目標,即通過預售NFT獲得100%的全額融資,這部電影就是馬克·奧康納(Mark O’connor)執(zhí)導的《Oui Cannes》,
  • MR——元宇宙平臺的下一代入口

    作為“元宇宙”的領頭羊,Meta的一舉一動都受到業(yè)內的高度關注。華爾街見聞提及,2月17日周四,F(xiàn)acebook母公司Meta在透露,其混合現(xiàn)實技術(MR)將在幾年后實現(xiàn),讓人們對元
  • PayPal CEO 的加密語錄:加密貨幣將重新定義金融世界

    PayPal 近年來一直是加密行業(yè)的倡導者。這個本身擁有超過 3.5 億名活躍用戶的支付巨頭,已經允許美國和英國的用戶交易或持有比特幣(BTC)、以太坊(ETH)、比特現(xiàn)金(BCH
  • 76億美金估值、2022年最具創(chuàng)新力公司,Dapper Labs如何做到?

    “元宇宙的開拓者”是我們針對元宇宙的發(fā)展而設立的專欄,主要面向那些深挖元宇宙產業(yè)或者在元宇宙進行“淘金”的從業(yè)者,分享這些企業(yè)或者創(chuàng)業(yè)者們的故事,以獨特
  • TX加入的NFT數(shù)字收藏品,元宇宙的破圈之路?

    3月7日,澳大利亞 NFT 初創(chuàng)公司 Immutable 在新加坡淡馬錫牽頭的R資中以估值 25 億美元完成2億美元R資,騰訊參投。想必國人最熟知的應該就是TX,作為國內四大互聯(lián)網(wǎng)
Top 日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不
91久久综合| 在线播放不卡| 国产精品久久久一区二区| 国产精品免费区二区三区观看| 国产精品乱看| 国产日韩在线播放| 亚洲国产精品一区在线观看不卡 | 国产精品一区二区女厕厕| 欧美不卡视频一区发布| 欧美日韩免费观看一区三区| 国产精品网站一区| 亚洲福利在线看| 亚洲免费一在线| 老妇喷水一区二区三区| 欧美色图一区二区三区| 国内精品视频在线观看| 日韩午夜精品视频| 久久精选视频| 欧美日韩在线大尺度| 国内精品久久久久久久影视麻豆 | 欧美日韩精品在线观看| 国产主播在线一区| 99视频精品全国免费| 久久av一区二区三区| 欧美日韩www| 国产自产精品| 一区二区三区欧美| 久久在线91| 国产精品一区二区久久 | 久久国产精品一区二区| 欧美日韩日本视频| 在线观看日韩av先锋影音电影院| 亚洲午夜91| 噜噜爱69成人精品| 国产欧美一区二区精品性| 日韩一级在线| 免费观看30秒视频久久| 国产欧美一级| 国产综合欧美在线看| 一片黄亚洲嫩模| 欧美国产精品人人做人人爱| 韩国福利一区| 欧美一级视频精品观看| 欧美午夜精品久久久久久超碰| 亚洲国产精品va在线看黑人动漫| 午夜精品剧场| 国产精品ⅴa在线观看h| 亚洲精品免费在线播放| 老司机一区二区| 国产一区日韩欧美| 午夜精品福利视频| 欧美性猛交xxxx乱大交退制版| 91久久久久久久久| 免费日韩视频| 亚洲丰满在线| 久久综合久久综合这里只有精品| 国产日产高清欧美一区二区三区| 亚洲天堂网在线观看| 欧美日韩免费精品| 激情伊人五月天久久综合| 亚洲欧美日韩精品| 国产精品久久久久久亚洲毛片| 日韩亚洲不卡在线| 欧美大胆成人| 亚洲国产精品va| 蜜臀av一级做a爰片久久| 狠狠噜噜久久| 久久久另类综合| 极品中文字幕一区| 久久久美女艺术照精彩视频福利播放| 日韩小视频在线观看专区| 久久久久国产一区二区| 国产一区二区欧美| 久久www免费人成看片高清| 国产日韩视频| 欧美一激情一区二区三区| 国产精品一区久久久| 小处雏高清一区二区三区| 国产麻豆视频精品| 亚洲综合激情| 国产欧美一区二区精品忘忧草| 性xx色xx综合久久久xx| 国产欧美日韩综合精品二区| 欧美在线观看www| 狠狠入ady亚洲精品| 久久综合色8888| 亚洲国产日韩欧美在线动漫 | 国产婷婷色一区二区三区在线| 午夜精品影院| 国产欧美一区二区精品性色| 欧美一级大片在线观看| 国产亚洲综合性久久久影院| 久久久综合精品| 亚洲国产日韩在线| 欧美精品在线观看| 亚洲图片欧洲图片av| 国产精品美女久久久久久2018| 亚洲综合色自拍一区| 欧美精品免费在线| 亚洲一区二区三区午夜| 欧美.www| 亚洲视频你懂的| 国产日本欧美在线观看| 久久久精彩视频| 欧美成人乱码一区二区三区| 久久综合久久综合这里只有精品| 欧美成人精品在线观看| 日韩视频免费观看| 国产精品第一页第二页第三页| 亚洲影院色无极综合| 国产偷自视频区视频一区二区| 久久久久久穴| 亚洲人线精品午夜| 国产精品啊啊啊| 久久精品国产999大香线蕉| 亚洲国产精品久久久久久女王 | 欧美日韩国产大片| 亚洲欧美日韩成人| 影音先锋日韩精品| 欧美日韩在线观看一区二区| 亚洲欧美日韩精品久久久久| 精品粉嫩aⅴ一区二区三区四区| 欧美国产免费| 午夜精品999| 亚洲激情在线观看视频免费| 国产精品电影在线观看| 久久精品一二三区| 欧美成人精品高清在线播放| 一本一道久久综合狠狠老精东影业| 国产九九精品视频| 免费观看30秒视频久久| 亚洲一区综合| 亚洲国产精品国自产拍av秋霞| 国产精品jvid在线观看蜜臀| 久久久青草婷婷精品综合日韩| 日韩亚洲欧美一区二区三区| 国产一区二区视频在线观看| 欧美日本中文| 久久嫩草精品久久久久| 亚洲一区二区在线播放| 原创国产精品91| 国产精品一二一区| 欧美区国产区| 久久人人爽人人爽| 亚洲一区二区免费在线| 亚洲国产精品va在线看黑人动漫| 国产精品日本精品| 欧美黄色小视频| 久久精品国产精品亚洲| 在线一区日本视频| 永久免费精品影视网站| 国产精品美女www爽爽爽| 欧美激情一区在线| 久久婷婷国产综合精品青草| 亚洲欧美精品在线观看| 亚洲精品一区二区三区婷婷月 | 国产精品一区二区三区成人| 欧美精品久久久久久久久久| 欧美专区在线| 亚洲一级高清| 亚洲精品偷拍| 在线观看欧美| 国产亚洲欧美日韩一区二区| 欧美三区在线视频| 欧美成人免费观看| 久久久精品日韩| 午夜宅男久久久| 亚洲一区二区成人| 99精品免费| 亚洲欧洲精品一区二区三区波多野1战4 | 欧美日韩一级视频| 欧美成人午夜激情| 久久一区二区三区国产精品| 欧美一区二区三区四区高清| 亚洲一区二区三区色| 99精品久久| 亚洲免费成人| 亚洲精品国产视频| 亚洲国产午夜| 亚洲国产裸拍裸体视频在线观看乱了中文 | 国产乱码精品一区二区三区忘忧草| 欧美日韩精品免费观看视频| 欧美1区2区3区| 久久综合久久久久88| 久久午夜精品| 久久久久国产免费免费| 久久精品人人爽| 香蕉久久久久久久av网站| 亚洲一区二区欧美日韩| 亚洲一卡久久| 亚洲免费在线电影| 亚洲永久精品大片| 日韩图片一区| 一本久道久久综合婷婷鲸鱼| 日韩亚洲在线观看| 夜夜爽99久久国产综合精品女不卡| 亚洲狼人精品一区二区三区| 亚洲精品免费看| 日韩视频在线观看免费| av成人福利| 亚洲午夜精品视频| 亚洲欧美一区二区三区极速播放| 亚洲男人第一网站| 欧美在线啊v一区|