當前位置：首頁 > 元宇宙 > AI

斯坦福揭秘 o1-preview 軟肋：數學競賽題稍作修改，準確率驟降 30%

來源：責編：時間：2025-02-02 18:40:35 76觀看

導讀斯坦福大學最近的一項研究發現，盡管 o1-preview 在數學、代碼等領域能力逆天，但只要對數學競賽的題目稍修改，模型解答的準確率竟會立刻下降 30%。在數學競賽的領域里，普特南數學競賽的威名可謂如雷貫耳。它由 Wil

斯坦福大學最近的一項研究發現，盡管 o1-preview 在數學、代碼等領域能力逆天，但只要對數學競賽的題目稍修改，模型解答的準確率竟會立刻下降 30%。

在數學競賽的領域里，普特南數學競賽的威名可謂如雷貫耳。它由 William Lowell Putnam 家族發起，自 1938 年首屆舉辦以來，歷經 66 年的歲月沉淀，已然成為全球大學生數學精英們一較高下的頂級賽場。

美國數學會的精心主辦，加上哈佛大學、多倫多大學等名校學子的踴躍參與，讓這項賽事的桂冠成為無數學子夢寐以求的殊榮，其權威性和挑戰性，那是得到了全球學界的公認。

而最近，來自斯坦福的一項研究，卻讓大家驚掉了下巴：僅僅對題目中的變量、常量等要素稍作修改，大模型「尖子生」o1-preview 模型的準確率就立刻大幅下降，降幅高達 30%！

原文鏈接：https://openreview.net/ forum?id=YXnwlZe0yf&noteId=yrsGpHd0Sf

這就好比一位武林高手，平時在熟悉的招式里威風八面，一旦對手換個路數，就立馬亂了陣腳。這不禁讓人好奇，這些難住最強推理模型的變體題，到底藏著怎樣的玄機？

北美最難數學競賽題「變臉」，AI 有點懵

OpenAI 的 o1-preview 模型自出道以來，憑借超強的推理能力，在各個領域大殺四方。

就拿編程來說，在 Codeforces 編程競賽這個「高手如云」的賽場上，它的 Elo 評分高達 1807，把 93% 的競爭對手都遠遠甩在身后，寫起代碼來又快又準，就像一位經驗老道的程序員。

在數學領域更是展現出了驚人的實力。2024 年的美國數學邀請賽（AIME）題目集上，o1-preview 的正確率高達 83%，相當于全美參賽選手 top500 的水平。

醫學診斷方面，哈佛醫學院和斯坦福大學組成的科研團隊曾對 o1-preview 進行過全方位的「考核」，結果令人驚嘆：在生成診斷意見、診斷臨床推理和管理推理這些關鍵任務上，它甚至超越了人類醫生。面對復雜的病例，它能快速分析癥狀、病史等信息，并給出準確的診斷建議。

然而，就是這樣一個在多領域「開掛」的模型，在面對普特南數學競賽題的變體時，卻仿佛迷失了方向。

在原始題目上，o1-preview 本能達到 41.95% 的準確率，而一旦題目中的變量、常量被修改，準確率就像坐了滑梯一樣，直線下降約 30%。

這巨大的反差，背后其實有著深層次的原因。普特南競賽題本就以超高的難度、獨特的出題思路著稱，原始題目和變體題目之間，雖然看似只有細微的差別，但這些改變往往涉及到數學概念的深層次運用和邏輯結構的巧妙變換。

o1-preview 模型在訓練過程中，可能更多是對常見的數學題型、編程模式、醫學案例進行學習和優化，對于這種專門設計、極度刁鉆的變體題，缺乏足夠的「應對經驗」，難以迅速抓住問題的關鍵，從而導致準確率大幅下滑。

Putnam-AXIOM 基準，AI 數學能力的「試金石」

為了更準確深入地評估 AI 大模型的數學能力，研究團隊精心打造了 Putnam-AXIOM Original 基準，收納了來自歷年普特南數學競賽（Putnam）的 236 個數學問題，從復雜的代數變換到精妙的幾何證明，從抽象的數論難題到變幻莫測的組合數學謎題，無一不是對人類智慧極限的挑戰。

但這項基準的價值遠不止于收錄原題，更厲害的是，研究者們設計了一套巧妙的程序化修改機制，可以對問題中的變量、常量等關鍵要素進行修改，從而生成無限多個全新且難度相當的問題。

比如說，把一個幾何問題中的邊長數值進行變換，或者改變函數題中的參數取值范圍，這些看似微小的調整，卻能讓整個問題的解法路徑大不相同。

而且，這些新生成的題目從未在互聯網上出現過，因此也不可能泄露到任何模型的訓練數據集中，完全杜絕了 AI 靠「死記硬背」答案來作弊的可能，真正做到了對 AI 數學推理能力的精準探測。

在這個新設計的基準上，研究人員大范圍選擇了各種模型進行測試，包括 OpenAI 的 o1-preview、GPT-4 和 GPT-4o，Anthropic 的旗艦模型 Claude-3.5 Sonnet，Llama、Qwen 的等有影響力的開源模型，以及 Gemma、Mistral、DeepSeek、Numina 等以數學能力聞名的開源模型。

首先，將 Putnam-AXIOM 基準中的 236 道原題輸入給各個模型，記錄它們的解題時間、推理步驟以及最終答案，算出準確率。接著，把經過程序化修改后的變體題拋給這些模型，同樣嚴格記錄解題過程中各項數據。

在原始題目上，o1-preview 模型以 41.95% 的準確率暫居榜首，可一旦切換到變體題，它的準確率就「跳水」到了 11.95% 左右，足足下降了 30 個百分點。

其他模型的準確率滑坡也相當顯著，但值得注意的是，Gemma 和 Mistral 系列模型中的某些型號在變體題上的準確率不降反升。

這些數據背后，反映出的問題相當深刻。一方面，當前的 AI 模型，哪怕是最頂尖的，在面對數學問題的靈活變化時適應性較差。它們可能對大規模數據訓練出來的固定模式有一定依賴，一旦題目超出了熟悉的套路就會出現顯著滑坡。

另一方面，普特南競賽題的變體設計，精準地擊中了 AI 的「軟肋」，這也為未來 AI 模型的訓練和提升指明了另一種方向。

參考資料：

https://openreview.net/forum?id=YXnwlZe0yf&noteId=yrsGpHd0Sf

本文來自微信公眾號：新智元（ID：AI_era）原文標題：《斯坦福揭秘 o1-preview 軟肋！數學競賽題稍作修改，準確率驟降 30%》

本文鏈接：http://www.www897cc.com/showinfo-45-10384-0.html斯坦福揭秘 o1-preview 軟肋：數學競賽題稍作修改，準確率驟降 30%

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：英特爾 Falcon Shores GPU 止步，戰略轉向 AI 系統級解決方案

下一篇：突破瓶頸，百度 EICopilot AI 提升企業知識圖譜利用率

標簽：

熱門焦點

游戲玩家才是最“元宇宙”的

01元宇宙的概念，最早由科幻作家尼爾·斯蒂芬森于1992年在其著作《雪崩》中提出。它指的是一個脫胎于現實世界，又與現實世界平行、相互影響，并且始終在線的虛擬世
智能人機交互技術的春晚大考

1月初的一個早晨，京東智能客戶服務產品部緊急開會，進行關于尚未對外公布的“X項目”的初討論。1月5日，這個神秘的X項目對外公布，京東成為央視2022年春晚獨家互動合
美國一區塊鏈風投公司宣布成立2.5億美元web3投資新基金

No.1 俄羅斯財政部長: 在俄羅斯禁止比特幣就如禁止互聯網一樣2月16日消息，俄羅斯財政部長安東·西盧安諾夫（Anton Siluanov）表示，在俄羅斯禁止加密貨幣就跟禁止互
從冰墩墩到無聊猿，解秘未來IP爆款的模因

打造IP，是建設元宇宙的剛需。NFT能直接讓IP的價值變現；虛擬人IP是元宇宙的第一入口，而元宇宙要搭建的，就是一個個品牌IP星球，考驗的是IP世界觀的建設能力。如果說在
小眾有趣NFT藝術作品欣賞（1）

隨著NFT發展火熱，越來越多領域與NFT融合，NFT藝術在加密領域中占據了很大一部分。NFT藝術與傳統藝術有相似之處，也有完全不同的地方。NFT藝術與傳統藝術一樣，表現了
音樂NFT平臺里的下一匹黑馬是誰？

NFT 銷售額在 2021 年開始暴漲，從 2018 年的僅 4069 萬美元的交易量，到 2021 年，NFT 交易量飆升至 442 億美元以上，并不斷刷新記錄并達到新的高度。預測到2025 年N
融資千萬美元的元宇宙平臺UGC到底是什么？

據獲悉，全球化元宇宙社交平臺BUD Technologies, Inc.（以下簡稱“BUD”）宣布完成1500萬美元A+輪融資，本輪融資由啟明創投領投，老股東源碼資本、GGV紀源資本、云九資
2022年元宇宙系列報告：UGC當道，XR帶來新交互體驗

UGC作為元宇宙的主要內容創作模式，已經越來越多的呈現于游戲、娛樂、社交、傳媒等方面，UGC模式勾勒了元宇宙的邊界，現今元宇宙UGC模式的主要呈現方式以元宇宙概念
爆發在即的Layer2賽道百花齊放，誰將是領跑者？

還記得幾年前最早我們提起ETH擴容，首先想到就是Layer2，而Layer2里，首先想到的是閃電網絡，狀態通道，Plasma…然后折騰了幾年，發現并沒有什么用，許多項目方和資本也等不

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

斯坦福揭秘 o1-preview 軟肋：數學競賽題稍作修改，準確率驟降 30%

游戲玩家才是最“元宇宙”的

智能人機交互技術的春晚大考

美國一區塊鏈風投公司宣布成立2.5億美元web3投資新基金

從冰墩墩到無聊猿，解秘未來IP爆款的模因

小眾有趣NFT藝術作品欣賞（1）

音樂NFT平臺里的下一匹黑馬是誰？

融資千萬美元的元宇宙平臺UGC到底是什么？

2022年元宇宙系列報告：UGC當道，XR帶來新交互體驗

爆發在即的Layer2賽道百花齊放，誰將是領跑者？

最新推薦

大廠元宇宙，又菜又愛玩

時尚領域進軍元宇宙，2022年會帶來哪些顛覆性的全新體驗？

比特幣的價格越高，使用價值越大

江西將探索成立元宇宙聯盟，韓國將加強對NFT和元宇宙的監管

從冰墩墩到無聊猿，解秘未來IP爆款的模因

重溫 1602 年：DAO 是新的企業范式嗎？

猜你喜歡

熱門推薦

相關資訊