斯坦福大學(xué)最近的一項(xiàng)研究發(fā)現(xiàn),盡管 o1-preview 在數(shù)學(xué)、代碼等領(lǐng)域能力逆天,但只要對(duì)數(shù)學(xué)競(jìng)賽的題目稍修改,模型解答的準(zhǔn)確率竟會(huì)立刻下降 30%。
在數(shù)學(xué)競(jìng)賽的領(lǐng)域里,普特南數(shù)學(xué)競(jìng)賽的威名可謂如雷貫耳。它由 William Lowell Putnam 家族發(fā)起,自 1938 年首屆舉辦以來(lái),歷經(jīng) 66 年的歲月沉淀,已然成為全球大學(xué)生數(shù)學(xué)精英們一較高下的頂級(jí)賽場(chǎng)。
美國(guó)數(shù)學(xué)會(huì)的精心主辦,加上哈佛大學(xué)、多倫多大學(xué)等名校學(xué)子的踴躍參與,讓這項(xiàng)賽事的桂冠成為無(wú)數(shù)學(xué)子夢(mèng)寐以求的殊榮,其權(quán)威性和挑戰(zhàn)性,那是得到了全球?qū)W界的公認(rèn)。
而最近,來(lái)自斯坦福的一項(xiàng)研究,卻讓大家驚掉了下巴:僅僅對(duì)題目中的變量、常量等要素稍作修改,大模型「尖子生」o1-preview 模型的準(zhǔn)確率就立刻大幅下降,降幅高達(dá) 30%!
原文鏈接:https://openreview.net/ forum?id=YXnwlZe0yf¬eId=yrsGpHd0Sf
這就好比一位武林高手,平時(shí)在熟悉的招式里威風(fēng)八面,一旦對(duì)手換個(gè)路數(shù),就立馬亂了陣腳。這不禁讓人好奇,這些難住最強(qiáng)推理模型的變體題,到底藏著怎樣的玄機(jī)?
北美最難數(shù)學(xué)競(jìng)賽題「變臉」,AI 有點(diǎn)懵OpenAI 的 o1-preview 模型自出道以來(lái),憑借超強(qiáng)的推理能力,在各個(gè)領(lǐng)域大殺四方。
就拿編程來(lái)說(shuō),在 Codeforces 編程競(jìng)賽這個(gè)「高手如云」的賽場(chǎng)上,它的 Elo 評(píng)分高達(dá) 1807,把 93% 的競(jìng)爭(zhēng)對(duì)手都遠(yuǎn)遠(yuǎn)甩在身后,寫(xiě)起代碼來(lái)又快又準(zhǔn),就像一位經(jīng)驗(yàn)老道的程序員。
在數(shù)學(xué)領(lǐng)域更是展現(xiàn)出了驚人的實(shí)力。2024 年的美國(guó)數(shù)學(xué)邀請(qǐng)賽(AIME)題目集上,o1-preview 的正確率高達(dá) 83%,相當(dāng)于全美參賽選手 top500 的水平。
醫(yī)學(xué)診斷方面,哈佛醫(yī)學(xué)院和斯坦福大學(xué)組成的科研團(tuán)隊(duì)曾對(duì) o1-preview 進(jìn)行過(guò)全方位的 「考核」,結(jié)果令人驚嘆:在生成診斷意見(jiàn)、診斷臨床推理和管理推理這些關(guān)鍵任務(wù)上,它甚至超越了人類(lèi)醫(yī)生。面對(duì)復(fù)雜的病例,它能快速分析癥狀、病史等信息,并給出準(zhǔn)確的診斷建議。
然而,就是這樣一個(gè)在多領(lǐng)域「開(kāi)掛」的模型,在面對(duì)普特南數(shù)學(xué)競(jìng)賽題的變體時(shí),卻仿佛迷失了方向。
在原始題目上,o1-preview 本能達(dá)到 41.95% 的準(zhǔn)確率,而一旦題目中的變量、常量被修改,準(zhǔn)確率就像坐了滑梯一樣,直線下降約 30%。
這巨大的反差,背后其實(shí)有著深層次的原因。普特南競(jìng)賽題本就以超高的難度、獨(dú)特的出題思路著稱(chēng),原始題目和變體題目之間,雖然看似只有細(xì)微的差別,但這些改變往往涉及到數(shù)學(xué)概念的深層次運(yùn)用和邏輯結(jié)構(gòu)的巧妙變換。
o1-preview 模型在訓(xùn)練過(guò)程中,可能更多是對(duì)常見(jiàn)的數(shù)學(xué)題型、編程模式、醫(yī)學(xué)案例進(jìn)行學(xué)習(xí)和優(yōu)化,對(duì)于這種專(zhuān)門(mén)設(shè)計(jì)、極度刁鉆的變體題,缺乏足夠的「應(yīng)對(duì)經(jīng)驗(yàn)」,難以迅速抓住問(wèn)題的關(guān)鍵,從而導(dǎo)致準(zhǔn)確率大幅下滑。
Putnam-AXIOM 基準(zhǔn),AI 數(shù)學(xué)能力的「試金石」為了更準(zhǔn)確深入地評(píng)估 AI 大模型的數(shù)學(xué)能力,研究團(tuán)隊(duì)精心打造了 Putnam-AXIOM Original 基準(zhǔn),收納了來(lái)自歷年普特南數(shù)學(xué)競(jìng)賽(Putnam)的 236 個(gè)數(shù)學(xué)問(wèn)題,從復(fù)雜的代數(shù)變換到精妙的幾何證明,從抽象的數(shù)論難題到變幻莫測(cè)的組合數(shù)學(xué)謎題,無(wú)一不是對(duì)人類(lèi)智慧極限的挑戰(zhàn)。
但這項(xiàng)基準(zhǔn)的價(jià)值遠(yuǎn)不止于收錄原題,更厲害的是,研究者們?cè)O(shè)計(jì)了一套巧妙的程序化修改機(jī)制,可以對(duì)問(wèn)題中的變量、常量等關(guān)鍵要素進(jìn)行修改,從而生成無(wú)限多個(gè)全新且難度相當(dāng)?shù)膯?wèn)題。
比如說(shuō),把一個(gè)幾何問(wèn)題中的邊長(zhǎng)數(shù)值進(jìn)行變換,或者改變函數(shù)題中的參數(shù)取值范圍,這些看似微小的調(diào)整,卻能讓整個(gè)問(wèn)題的解法路徑大不相同。
而且,這些新生成的題目從未在互聯(lián)網(wǎng)上出現(xiàn)過(guò),因此也不可能泄露到任何模型的訓(xùn)練數(shù)據(jù)集中,完全杜絕了 AI 靠 「死記硬背」答案來(lái)作弊的可能,真正做到了對(duì) AI 數(shù)學(xué)推理能力的精準(zhǔn)探測(cè)。
在這個(gè)新設(shè)計(jì)的基準(zhǔn)上,研究人員大范圍選擇了各種模型進(jìn)行測(cè)試,包括 OpenAI 的 o1-preview、GPT-4 和 GPT-4o,Anthropic 的旗艦?zāi)P?Claude-3.5 Sonnet,Llama、Qwen 的等有影響力的開(kāi)源模型,以及 Gemma、Mistral、DeepSeek、Numina 等以數(shù)學(xué)能力聞名的開(kāi)源模型。
首先,將 Putnam-AXIOM 基準(zhǔn)中的 236 道原題輸入給各個(gè)模型,記錄它們的解題時(shí)間、推理步驟以及最終答案,算出準(zhǔn)確率。接著,把經(jīng)過(guò)程序化修改后的變體題拋給這些模型,同樣嚴(yán)格記錄解題過(guò)程中各項(xiàng)數(shù)據(jù)。
在原始題目上,o1-preview 模型以 41.95% 的準(zhǔn)確率暫居榜首,可一旦切換到變體題,它的準(zhǔn)確率就「跳水」到了 11.95% 左右,足足下降了 30 個(gè)百分點(diǎn)。
其他模型的準(zhǔn)確率滑坡也相當(dāng)顯著,但值得注意的是,Gemma 和 Mistral 系列模型中的某些型號(hào)在變體題上的準(zhǔn)確率不降反升。
這些數(shù)據(jù)背后,反映出的問(wèn)題相當(dāng)深刻。一方面,當(dāng)前的 AI 模型,哪怕是最頂尖的,在面對(duì)數(shù)學(xué)問(wèn)題的靈活變化時(shí)適應(yīng)性較差。它們可能對(duì)大規(guī)模數(shù)據(jù)訓(xùn)練出來(lái)的固定模式有一定依賴(lài),一旦題目超出了熟悉的套路就會(huì)出現(xiàn)顯著滑坡。
另一方面,普特南競(jìng)賽題的變體設(shè)計(jì),精準(zhǔn)地?fù)糁辛?AI 的「軟肋」,這也為未來(lái) AI 模型的訓(xùn)練和提升指明了另一種方向。
參考資料:
https://openreview.net/forum?id=YXnwlZe0yf¬eId=yrsGpHd0Sf
本文來(lái)自微信公眾號(hào):新智元(ID:AI_era)原文標(biāo)題:《斯坦福揭秘 o1-preview 軟肋!數(shù)學(xué)競(jìng)賽題稍作修改,準(zhǔn)確率驟降 30%》
本文鏈接:http://www.www897cc.com/showinfo-45-10384-0.html斯坦福揭秘 o1-preview 軟肋:數(shù)學(xué)競(jìng)賽題稍作修改,準(zhǔn)確率驟降 30%
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 英特爾 Falcon Shores GPU 止步,戰(zhàn)略轉(zhuǎn)向 AI 系統(tǒng)級(jí)解決方案