日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁(yè) > 元宇宙 > AI

斯坦福揭秘 o1-preview 軟肋:數(shù)學(xué)競(jìng)賽題稍作修改,準(zhǔn)確率驟降 30%

來(lái)源: 責(zé)編: 時(shí)間:2025-02-02 18:40:35 54觀看
導(dǎo)讀 斯坦福大學(xué)最近的一項(xiàng)研究發(fā)現(xiàn),盡管 o1-preview 在數(shù)學(xué)、代碼等領(lǐng)域能力逆天,但只要對(duì)數(shù)學(xué)競(jìng)賽的題目稍修改,模型解答的準(zhǔn)確率竟會(huì)立刻下降 30%。在數(shù)學(xué)競(jìng)賽的領(lǐng)域里,普特南數(shù)學(xué)競(jìng)賽的威名可謂如雷貫耳。它由 Wil

斯坦福大學(xué)最近的一項(xiàng)研究發(fā)現(xiàn),盡管 o1-preview 在數(shù)學(xué)、代碼等領(lǐng)域能力逆天,但只要對(duì)數(shù)學(xué)競(jìng)賽的題目稍修改,模型解答的準(zhǔn)確率竟會(huì)立刻下降 30%。XUp28資訊網(wǎng)——每日最新資訊28at.com

在數(shù)學(xué)競(jìng)賽的領(lǐng)域里,普特南數(shù)學(xué)競(jìng)賽的威名可謂如雷貫耳。它由 William Lowell Putnam 家族發(fā)起,自 1938 年首屆舉辦以來(lái),歷經(jīng) 66 年的歲月沉淀,已然成為全球大學(xué)生數(shù)學(xué)精英們一較高下的頂級(jí)賽場(chǎng)。XUp28資訊網(wǎng)——每日最新資訊28at.com

美國(guó)數(shù)學(xué)會(huì)的精心主辦,加上哈佛大學(xué)、多倫多大學(xué)等名校學(xué)子的踴躍參與,讓這項(xiàng)賽事的桂冠成為無(wú)數(shù)學(xué)子夢(mèng)寐以求的殊榮,其權(quán)威性和挑戰(zhàn)性,那是得到了全球?qū)W界的公認(rèn)。XUp28資訊網(wǎng)——每日最新資訊28at.com

而最近,來(lái)自斯坦福的一項(xiàng)研究,卻讓大家驚掉了下巴:僅僅對(duì)題目中的變量、常量等要素稍作修改,大模型「尖子生」o1-preview 模型的準(zhǔn)確率就立刻大幅下降,降幅高達(dá) 30%!XUp28資訊網(wǎng)——每日最新資訊28at.com

XUp28資訊網(wǎng)——每日最新資訊28at.com

原文鏈接:https://openreview.net/ forum?id=YXnwlZe0yf&noteId=yrsGpHd0SfXUp28資訊網(wǎng)——每日最新資訊28at.com

這就好比一位武林高手,平時(shí)在熟悉的招式里威風(fēng)八面,一旦對(duì)手換個(gè)路數(shù),就立馬亂了陣腳。這不禁讓人好奇,這些難住最強(qiáng)推理模型的變體題,到底藏著怎樣的玄機(jī)?XUp28資訊網(wǎng)——每日最新資訊28at.com

北美最難數(shù)學(xué)競(jìng)賽題「變臉」,AI 有點(diǎn)懵

OpenAI 的 o1-preview 模型自出道以來(lái),憑借超強(qiáng)的推理能力,在各個(gè)領(lǐng)域大殺四方。XUp28資訊網(wǎng)——每日最新資訊28at.com

就拿編程來(lái)說(shuō),在 Codeforces 編程競(jìng)賽這個(gè)「高手如云」的賽場(chǎng)上,它的 Elo 評(píng)分高達(dá) 1807,把 93% 的競(jìng)爭(zhēng)對(duì)手都遠(yuǎn)遠(yuǎn)甩在身后,寫(xiě)起代碼來(lái)又快又準(zhǔn),就像一位經(jīng)驗(yàn)老道的程序員。XUp28資訊網(wǎng)——每日最新資訊28at.com

在數(shù)學(xué)領(lǐng)域更是展現(xiàn)出了驚人的實(shí)力。2024 年的美國(guó)數(shù)學(xué)邀請(qǐng)賽(AIME)題目集上,o1-preview 的正確率高達(dá) 83%,相當(dāng)于全美參賽選手 top500 的水平。XUp28資訊網(wǎng)——每日最新資訊28at.com

XUp28資訊網(wǎng)——每日最新資訊28at.com

醫(yī)學(xué)診斷方面,哈佛醫(yī)學(xué)院和斯坦福大學(xué)組成的科研團(tuán)隊(duì)曾對(duì) o1-preview 進(jìn)行過(guò)全方位的 「考核」,結(jié)果令人驚嘆:在生成診斷意見(jiàn)、診斷臨床推理和管理推理這些關(guān)鍵任務(wù)上,它甚至超越了人類(lèi)醫(yī)生。面對(duì)復(fù)雜的病例,它能快速分析癥狀、病史等信息,并給出準(zhǔn)確的診斷建議。XUp28資訊網(wǎng)——每日最新資訊28at.com

然而,就是這樣一個(gè)在多領(lǐng)域「開(kāi)掛」的模型,在面對(duì)普特南數(shù)學(xué)競(jìng)賽題的變體時(shí),卻仿佛迷失了方向。XUp28資訊網(wǎng)——每日最新資訊28at.com

在原始題目上,o1-preview 本能達(dá)到 41.95% 的準(zhǔn)確率,而一旦題目中的變量、常量被修改,準(zhǔn)確率就像坐了滑梯一樣,直線下降約 30%。XUp28資訊網(wǎng)——每日最新資訊28at.com

XUp28資訊網(wǎng)——每日最新資訊28at.com

這巨大的反差,背后其實(shí)有著深層次的原因。普特南競(jìng)賽題本就以超高的難度、獨(dú)特的出題思路著稱(chēng),原始題目和變體題目之間,雖然看似只有細(xì)微的差別,但這些改變往往涉及到數(shù)學(xué)概念的深層次運(yùn)用和邏輯結(jié)構(gòu)的巧妙變換。XUp28資訊網(wǎng)——每日最新資訊28at.com

o1-preview 模型在訓(xùn)練過(guò)程中,可能更多是對(duì)常見(jiàn)的數(shù)學(xué)題型、編程模式、醫(yī)學(xué)案例進(jìn)行學(xué)習(xí)和優(yōu)化,對(duì)于這種專(zhuān)門(mén)設(shè)計(jì)、極度刁鉆的變體題,缺乏足夠的「應(yīng)對(duì)經(jīng)驗(yàn)」,難以迅速抓住問(wèn)題的關(guān)鍵,從而導(dǎo)致準(zhǔn)確率大幅下滑。XUp28資訊網(wǎng)——每日最新資訊28at.com

Putnam-AXIOM 基準(zhǔn),AI 數(shù)學(xué)能力的「試金石」

為了更準(zhǔn)確深入地評(píng)估 AI 大模型的數(shù)學(xué)能力,研究團(tuán)隊(duì)精心打造了 Putnam-AXIOM Original 基準(zhǔn),收納了來(lái)自歷年普特南數(shù)學(xué)競(jìng)賽(Putnam)的 236 個(gè)數(shù)學(xué)問(wèn)題,從復(fù)雜的代數(shù)變換到精妙的幾何證明,從抽象的數(shù)論難題到變幻莫測(cè)的組合數(shù)學(xué)謎題,無(wú)一不是對(duì)人類(lèi)智慧極限的挑戰(zhàn)。XUp28資訊網(wǎng)——每日最新資訊28at.com

但這項(xiàng)基準(zhǔn)的價(jià)值遠(yuǎn)不止于收錄原題,更厲害的是,研究者們?cè)O(shè)計(jì)了一套巧妙的程序化修改機(jī)制,可以對(duì)問(wèn)題中的變量、常量等關(guān)鍵要素進(jìn)行修改,從而生成無(wú)限多個(gè)全新且難度相當(dāng)?shù)膯?wèn)題。XUp28資訊網(wǎng)——每日最新資訊28at.com

XUp28資訊網(wǎng)——每日最新資訊28at.com

比如說(shuō),把一個(gè)幾何問(wèn)題中的邊長(zhǎng)數(shù)值進(jìn)行變換,或者改變函數(shù)題中的參數(shù)取值范圍,這些看似微小的調(diào)整,卻能讓整個(gè)問(wèn)題的解法路徑大不相同。XUp28資訊網(wǎng)——每日最新資訊28at.com

而且,這些新生成的題目從未在互聯(lián)網(wǎng)上出現(xiàn)過(guò),因此也不可能泄露到任何模型的訓(xùn)練數(shù)據(jù)集中,完全杜絕了 AI 靠 「死記硬背」答案來(lái)作弊的可能,真正做到了對(duì) AI 數(shù)學(xué)推理能力的精準(zhǔn)探測(cè)。XUp28資訊網(wǎng)——每日最新資訊28at.com

在這個(gè)新設(shè)計(jì)的基準(zhǔn)上,研究人員大范圍選擇了各種模型進(jìn)行測(cè)試,包括 OpenAI 的 o1-preview、GPT-4 和 GPT-4o,Anthropic 的旗艦?zāi)P?Claude-3.5 Sonnet,Llama、Qwen 的等有影響力的開(kāi)源模型,以及 Gemma、Mistral、DeepSeek、Numina 等以數(shù)學(xué)能力聞名的開(kāi)源模型。XUp28資訊網(wǎng)——每日最新資訊28at.com

首先,將 Putnam-AXIOM 基準(zhǔn)中的 236 道原題輸入給各個(gè)模型,記錄它們的解題時(shí)間、推理步驟以及最終答案,算出準(zhǔn)確率。接著,把經(jīng)過(guò)程序化修改后的變體題拋給這些模型,同樣嚴(yán)格記錄解題過(guò)程中各項(xiàng)數(shù)據(jù)。XUp28資訊網(wǎng)——每日最新資訊28at.com

在原始題目上,o1-preview 模型以 41.95% 的準(zhǔn)確率暫居榜首,可一旦切換到變體題,它的準(zhǔn)確率就「跳水」到了 11.95% 左右,足足下降了 30 個(gè)百分點(diǎn)。XUp28資訊網(wǎng)——每日最新資訊28at.com

其他模型的準(zhǔn)確率滑坡也相當(dāng)顯著,但值得注意的是,Gemma 和 Mistral 系列模型中的某些型號(hào)在變體題上的準(zhǔn)確率不降反升。XUp28資訊網(wǎng)——每日最新資訊28at.com

XUp28資訊網(wǎng)——每日最新資訊28at.com

這些數(shù)據(jù)背后,反映出的問(wèn)題相當(dāng)深刻。一方面,當(dāng)前的 AI 模型,哪怕是最頂尖的,在面對(duì)數(shù)學(xué)問(wèn)題的靈活變化時(shí)適應(yīng)性較差。它們可能對(duì)大規(guī)模數(shù)據(jù)訓(xùn)練出來(lái)的固定模式有一定依賴(lài),一旦題目超出了熟悉的套路就會(huì)出現(xiàn)顯著滑坡。XUp28資訊網(wǎng)——每日最新資訊28at.com

另一方面,普特南競(jìng)賽題的變體設(shè)計(jì),精準(zhǔn)地?fù)糁辛?AI 的「軟肋」,這也為未來(lái) AI 模型的訓(xùn)練和提升指明了另一種方向。XUp28資訊網(wǎng)——每日最新資訊28at.com

參考資料:XUp28資訊網(wǎng)——每日最新資訊28at.com

https://openreview.net/forum?id=YXnwlZe0yf&noteId=yrsGpHd0SfXUp28資訊網(wǎng)——每日最新資訊28at.com

本文來(lái)自微信公眾號(hào):新智元(ID:AI_era)原文標(biāo)題:《斯坦福揭秘 o1-preview 軟肋!數(shù)學(xué)競(jìng)賽題稍作修改,準(zhǔn)確率驟降 30%》XUp28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-10384-0.html斯坦福揭秘 o1-preview 軟肋:數(shù)學(xué)競(jìng)賽題稍作修改,準(zhǔn)確率驟降 30%

聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: 英特爾 Falcon Shores GPU 止步,戰(zhàn)略轉(zhuǎn)向 AI 系統(tǒng)級(jí)解決方案

下一篇: 突破瓶頸,百度 EICopilot AI 提升企業(yè)知識(shí)圖譜利用率

標(biāo)簽:
  • 熱門(mén)焦點(diǎn)
Top 主站蜘蛛池模板: 翁源县| 清河县| 东海县| 平顶山市| 昔阳县| 瑞昌市| 寻乌县| 象州县| 余姚市| 阜康市| 虹口区| 双城市| 花莲县| 博爱县| 湾仔区| 武穴市| 尚义县| 谷城县| 保定市| 亳州市| 喜德县| 二连浩特市| 建始县| 凭祥市| 南溪县| 定日县| 顺义区| 古浪县| 鲁甸县| 海原县| 科尔| 临澧县| 康平县| 大新县| 杨浦区| 旺苍县| 巢湖市| 银川市| 苏尼特右旗| 南岸区| 桑植县|