日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

陶哲軒回應 OpenAI 新模型 IMO 奪金,GPT-5 測試版曝光

來源: 責編: 時間:2025-07-23 12:19:24 33觀看
導讀 OpenAI 最新模型曝光了,在 2025 年國際數學奧林匹克競賽(IMO)上達到了金牌水平!IMO 被公認為全球最頂尖的數學競賽,每年只有不到 8% 的參賽者能夠獲得金牌。而現在,一個 AI 模型做到了。新模型最終成績:新模型在總共

OpenAI 最新模型曝光了,在 2025 年國際數學奧林匹克競賽(IMO)上達到了金牌水平!avR28資訊網——每日最新資訊28at.com

IMO 被公認為全球最頂尖的數學競賽,每年只有不到 8% 的參賽者能夠獲得金牌。而現在,一個 AI 模型做到了。avR28資訊網——每日最新資訊28at.com

新模型最終成績:新模型在總共 6 道題中成功解決了 5 道,獲得 35 分(滿分 42 分),超過了今年的金牌線。avR28資訊網——每日最新資訊28at.com

avR28資訊網——每日最新資訊28at.com

OpenAI 員工 Alexander Wei 還透露,GPT-5 即將發布,但 IMO 金牌模型是一個實驗性研究,在幾個月內都沒有計劃發布。avR28資訊網——每日最新資訊28at.com

他特別強調,這次成功并非依靠針對特定任務的狹隘方法,而是在通用強化學習和測試時計算擴展方面取得了新突破。avR28資訊網——每日最新資訊28at.com

avR28資訊網——每日最新資訊28at.com

與此同時,第三方機構的開源代碼中被發現 GPT-5-reasoning-alpha-2025-07-13 的字樣。avR28資訊網——每日最新資訊28at.com

avR28資訊網——每日最新資訊28at.com

這段代碼被挖出來后很快就被刪除或隱藏,結合 OpenAI 在新模型發布前會找第三方機構進行安全測試的慣例 ——avR28資訊網——每日最新資訊28at.com

種種跡象表明,GPT-5 離我們不遠了。avR28資訊網——每日最新資訊28at.com

35 分斬獲金牌,解題過程完全模擬人類考試

具體來看 OpenAI 的實驗性新模型,這次評測可不是隨便做個題那么簡單。avR28資訊網——每日最新資訊28at.com

OpenAI 團隊讓模型在與人類選手完全相同的條件下參加考試:兩場各 4.5 小時的考試,不能使用任何工具或聯網,只能閱讀官方題目陳述,然后用自然語言寫出證明過程。avR28資訊網——每日最新資訊28at.com

avR28資訊網——每日最新資訊28at.com

最終成績出來了:模型在 6 道題中成功解決了 5 道,獲得 35 分(滿分 42 分),穩穩超過了今年的金牌線。avR28資訊網——每日最新資訊28at.com

今年 IMO 的金牌分數線正好是 35 分,這個成績放在人類選手中也是妥妥的金牌水平。今年約 600 名參賽者中,只有 5 人拿到了滿分。avR28資訊網——每日最新資訊28at.com

更讓人印象深刻的是評分過程的嚴謹性。每道題的解答都由三位前 IMO 獎牌獲得者獨立評分,只有在三人達成一致意見后才確定最終分數。avR28資訊網——每日最新資訊28at.com

這次突破的意義不止于成績,正如研究團隊所說,IMO 問題需要的是一種全新水平的持續創造性思維。avR28資訊網——每日最新資訊28at.com

從推理時間跨度來看,AI 的進步速度簡直讓人瞠目結舌:從 GSM8K(頂尖人類約需 0.1 分鐘)到 MATH 基準測試(約 1 分鐘),再到 AIME(約 10 分鐘),現在終于攻克了 IMO(約 100 分鐘)這個需要長時間深度思考的難題。avR28資訊網——每日最新資訊28at.com

更重要的是,IMO 的答案是難以驗證的多頁證明,這與之前那些有明確正確答案的數學題完全不同。OpenAI 團隊表示,他們突破了傳統強化學習中依賴明確可驗證獎勵的范式,創造出了能夠像人類數學家一樣構建精巧論證的模型。avR28資訊網——每日最新資訊28at.com

avR28資訊網——每日最新資訊28at.com

唯一沒能攻克的是第六題 —— 這道被參賽者稱為“最終 Boss”的組合數學難題:avR28資訊網——每日最新資訊28at.com

有一個 2025×2025 的單位正方形網格。瑪蒂爾達希望在網格上放置一些矩形塊,這些塊的大小可能不同,使得每個塊的每一條邊都位于網格線上,并且每個單位正方形最多被一個塊覆蓋。求瑪蒂爾達需要放置的最小塊數,使得網格的每一行和每一列都恰好有一個單位正方形未被任何塊覆蓋。avR28資訊網——每日最新資訊28at.com

avR28資訊網——每日最新資訊28at.com

去年 IMO 題目中,谷歌用 Alphaproof 和 AlphaGeometry 完成了四道題,未完成的兩道也屬于組合數學。avR28資訊網——每日最新資訊28at.com

不過這一次,DeepMind 研究員 Archit Sharma 在 OpenAI 宣布后回復:“恭喜!搶在我們前面宣布了 —— 第 6 題是新的基準了嗎?”avR28資訊網——每日最新資訊28at.com

但這條推文很快就被刪除了。avR28資訊網——每日最新資訊28at.com

這個小插曲引發了網友們的各種猜測:莫非 Google 的模型也達到了類似水平。avR28資訊網——每日最新資訊28at.com

avR28資訊網——每日最新資訊28at.com

如果感興趣的話,還可以進一步查看 OpenAI 公開的 AI 解題過程,鏈接在文末獲取。avR28資訊網——每日最新資訊28at.com

avR28資訊網——每日最新資訊28at.com

引發圈內熱議,陶哲軒發表長評

OpenAI 模型斬獲 IMO 金牌的消息一出,AI 圈炸開了鍋。不過,在一片贊嘆聲中,也出現了一些不同的聲音。avR28資訊網——每日最新資訊28at.com

其中最受關注的,當屬數學界頂尖學者陶哲軒的表態,他在社交媒體上針對此事發表了長篇評論。avR28資訊網——每日最新資訊28at.com

陶哲軒指出,雖然多家 AI 公司都聲稱在 IMO 題目上取得了好成績,但由于缺乏統一的測試環境和標準,很難進行公平比較。avR28資訊網——每日最新資訊28at.com

人們很容易將當前 AI 的能力視為一個單一的量化指標 —— 要么能搞定某件事,要么就完全不行。但其實不是這樣,AI 到底有多厲害,這得看給它多少資源、多少輔助手段以及不同的結果呈現方式,種種因素影響下,AI 能力能差出好幾個量級。avR28資訊網——每日最新資訊28at.com

avR28資訊網——每日最新資訊28at.com

他特別強調:“在沒有預先公布方法論的情況下,不會對任何自我報告的 AI 競賽表現發表評論。”avR28資訊網——每日最新資訊28at.com

avR28資訊網——每日最新資訊28at.com

陶哲軒用生動的比喻列舉了多項 AI 可能采取的措施:avR28資訊網——每日最新資訊28at.com

給學生幾天時間來完成每道題,而非用四個半小時解答三道題。(稍微延伸一下:給學生的時間仍只有四個半小時,但領隊將他們放入某種昂貴且耗能巨大的時間加速裝置,在這段時間里,學生們會經歷數月甚至數年的時光。)avR28資訊網——每日最新資訊28at.com

考試開始前,領隊將題目改寫成學生更易理解的形式。avR28資訊網——每日最新資訊28at.com

領隊讓學生可以無限制使用計算器、計算機代數軟件、形式化證明輔助工具、教科書,或者擁有上網搜索的權限avR28資訊網——每日最新資訊28at.com

領隊讓 6 名學生組成的團隊共同攻關同一道題,就各自的部分進展和遇到的瓶頸進行交流。avR28資訊網——每日最新資訊28at.com

領隊給學生提示可行的解題方向,若發現有學生在明知不太可能成功的方向上耗費過多時間,便會進行干預。avR28資訊網——每日最新資訊28at.com

團隊的 6 名學生都提交了解答,但領隊只挑選出“最佳”解答提交給競賽,其余的則棄之不用。avR28資訊網——每日最新資訊28at.com

若團隊中沒有任何一名學生得出令人滿意的解答,領隊就完全不提交任何解答,悄無聲息地退出競賽,且無人知曉他們曾參與過。avR28資訊網——每日最新資訊28at.com

而這些措施均改變了競賽形式從而影響題目難度。avR28資訊網——每日最新資訊28at.com

avR28資訊網——每日最新資訊28at.com

與此同時,數學競賽評測平臺 MathArena 發布了獨立評測結果。avR28資訊網——每日最新資訊28at.com

在他們的測試中,即使是表現最好的 Gemini 2.5 Pro 也只獲得了 13 分(31%),遠低于銅牌線 19 分。avR28資訊網——每日最新資訊28at.com

avR28資訊網——每日最新資訊28at.com

測試使用了 best-of-32 的選擇策略,即對于每個模型的解答,首先生成 32 份回應,隨后借助“大語言模型評審系統”對這些回應進行評估,兩兩比對選出更優答案。avR28資訊網——每日最新資訊28at.com

每份最終的模型答案生成成本至少為 3 美元,其中 Grok-4 模型每份答案的成本超過 20 美元,但即便如此,仍然沒有任何模型能達到獲獎牌的水平。avR28資訊網——每日最新資訊28at.com

MathArena 團隊也同步更新了 OpenAI 宣布實驗模型拿到 IMO 金牌的消息:avR28資訊網——每日最新資訊28at.com

無法驗證這些結果是如何實現,期待該模型的發布以及使用 MathArena 基準進行獨立評估。avR28資訊網——每日最新資訊28at.com

avR28資訊網——每日最新資訊28at.com

雖然 OpenAI 模型拿金牌的方法論未公開,但也有不少網友表示,不看過程,結果同樣具有意義。avR28資訊網——每日最新資訊28at.com

avR28資訊網——每日最新資訊28at.com

OpenAI 團隊對自己的成果充滿信心。avR28資訊網——每日最新資訊28at.com

參與此項目的研究員 Alexander Wei 回憶說:“2021 年,我的博士導師讓我預測 2025 年 7 月 AI 在數學上的進展,我當時預測 MATH 基準測試能達到 30%(還覺得其他人都太樂觀了)。結果現在我們拿到了 IMO 金牌。”avR28資訊網——每日最新資訊28at.com

avR28資訊網——每日最新資訊28at.com

OpenAI 新模型解題過程:avR28資訊網——每日最新資訊28at.com

https://github.com/aw31/openai-imo-2025-proofs/avR28資訊網——每日最新資訊28at.com

參考鏈接:avR28資訊網——每日最新資訊28at.com

[1]https://twitter.com/alexwei_/status/1946477742855532918avR28資訊網——每日最新資訊28at.com

[2]https://x.com/btibor91/status/1946532308896628748avR28資訊網——每日最新資訊28at.com

[3]https://social.vivaldi.net/@tao@mathstodon.xyz/114881418791593328avR28資訊網——每日最新資訊28at.com

[4]https://www.reddit.com/r/singularity/comments/1m43gar/looks_like_deepmind_has_also_won_imo_gold_but/avR28資訊網——每日最新資訊28at.com

[5]https://matharena.ai/imoavR28資訊網——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:夢晨、西風,原標題《陶哲軒回應 OpenAI 新模型 IMO 奪金!GPT-5 測試版也曝光了》avR28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-14791-0.html陶哲軒回應 OpenAI 新模型 IMO 奪金,GPT-5 測試版曝光

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 英偉達推出 OpenReasoning-Nemotron 推理模型,普通游戲電腦也能玩轉高級推理

下一篇: 馬斯克宣布將推出兒童版 AI 應用“Baby Grok”,暫未披露功能細節

標簽:
  • 熱門焦點
  • 元宇宙終究沒火過兩年

    來源:傳播體操在ChatGPT快速破圈的同時,元宇宙的熱度卻一瀉千里。雖然互聯網大廠們都沒有否認元宇宙的長期想象力,但在行動上卻都紛紛表示了對元宇宙短期前景的悲觀。號稱改變
  • 汽車元宇宙,是概念還是未來?

    作者|何文 元宇宙是未來趨勢已經無需驗證。 從概念上來看,元宇宙是兩種存在多年的概念的融合:虛擬現實和數字第二人生。這也就意味著,元宇宙所代表的是一種新的數
  • NFT的未來:傳統企業與去中心化機構之間的競賽

    傳統企業和去中心化機構一直存在分歧,但最近NFT的爆炸式增長讓他們產生了共同的興趣,雙方都在競相讓用戶更輕松、更方便地使用NFT。毫無疑問,NFT 市場正在增長。
  • Layer1的新以太坊,更好的以太坊?

    以太坊作為區塊鏈基礎設施地位看起來已不可動搖,但也面臨著費用高、效率低、偏離去中心化初衷等問題。平臺上既得利益群體的形成和固化也逐漸讓革新變得困難。
  • 上海虹口成立10億元元宇宙基金,香港首只元宇宙ETF擬上市

    區塊鏈日報17日訊 今日《元宇宙新鮮事》有:上海虹口將成立總額約10億元的元宇宙產業基金;香港市場首只元宇宙主題ETF擬于2月21日上市;元宇宙平臺Roblox出現違禁游
  • 吸金31億美元,誰在催火2021年的鏈游?

    2021年究竟發生了什么,才使得鏈游領域在這年一飛沖天?作者:廖羽2022年2月16日,Invest Game發布《2021年全球游戲投資報告》,報告顯示,游戲行業的投資重點正在向區塊
  • 參加元宇宙里的招聘會是什么樣一種體驗?

    求職者可以在活動中走動,就像他們在現實生活中一樣。長話短說看亮點:招聘公司Hirect為Y-combinator支持的初創公司舉辦了一場元宇宙招聘會。這里有一個大廳、一
  • 美國單曲排行榜Billboard和World of Women合作推出NFT雜志封面

    今天,Billboard宣布與流行的NFT頭像集World of Women(WoW)建立新的伙伴關系,向NFT生態系統又邁進了一步。在這次合作中,WoW的創建者Yam Karkai將幫助這個音樂行業巨
  • 盤點9個主流元宇宙平臺,你都知道哪些?

    隨著NFT的持續升溫,它也加入了現在的元宇宙浪潮。本文介紹元宇宙的基本概念以及 九個最流行的元宇宙NFT平臺,如Decentraland、sandbox等。用熟悉的語言學習 以太
Top 主站蜘蛛池模板: 景东| 晋江市| 望都县| 会理县| 定兴县| 宣化县| 于都县| 新昌县| 和平县| 静海县| 桐城市| 黄龙县| 阿鲁科尔沁旗| 临清市| 万州区| 三都| 板桥市| 金坛市| 西丰县| 桐乡市| 山西省| 教育| 邯郸县| 哈密市| 沾益县| 富民县| 南乐县| 全椒县| 白沙| 波密县| 泰和县| 宜君县| 绥棱县| 称多县| 津市市| 宜良县| 康乐县| 兴化市| 宁德市| 毕节市| 银川市|