這一次,“不會(huì)”竟成了大模型的高光時(shí)刻。
雖然在 IMO 第 6 題上得了零分,OpenAI 的金牌模型卻展現(xiàn)了“高智商的誠(chéng)實(shí)”。
正如 OpenAI 研究員 Noam Brown 在最新訪談中所揭示的:
當(dāng) IMO 推理模型會(huì)在缺乏有效證據(jù)時(shí)表示“我不確定”,這會(huì)顯著減少隱藏錯(cuò)誤。
在 AI 摘下 IMO 金牌后,OpenAI 金牌小分隊(duì)成員 Alex Wei、Sheryl Hsu 和 Noam Brown 參與了紅杉資本組織的一場(chǎng)對(duì)話,揭秘模型攻克精英數(shù)學(xué)難題的底層突破。
有網(wǎng)友幫忙總結(jié)了個(gè)太長(zhǎng)不看版:
與過(guò)去那些“看起來(lái)完美,實(shí)則錯(cuò)誤”的幻覺(jué)式答案不同,這一代大模型開(kāi)始學(xué)會(huì)“承認(rèn)自己不會(huì)”。
它標(biāo)志著模型正在從胡編亂造的幻覺(jué)式回答,轉(zhuǎn)向更加可靠且具有“自我認(rèn)意識(shí)”的全新階段。
三位成員還在這場(chǎng)對(duì)話中,分享了更多關(guān)于沖刺 IMO 的有趣細(xì)節(jié)。
IMO 金牌模型能承認(rèn)自己不知道盡管數(shù)學(xué)家與計(jì)算機(jī)科學(xué)家一致認(rèn)可 IMO 金牌模型的價(jià)值。
但他們常常抱怨,當(dāng)模型遇到知識(shí)盲區(qū)時(shí),它總會(huì)輸出一個(gè)令人信服但錯(cuò)誤的答案。
他們不得不耗費(fèi)大量精力逐行驗(yàn)算,才能甄別那些幻覺(jué)陷阱。
IMO 第 6 題讓大模型全軍覆沒(méi),當(dāng)然,OpenAI 也對(duì)其進(jìn)行了大量計(jì)算。
有一個(gè)由 2025×2025 個(gè)單位正方形組成的網(wǎng)格。Matilda 希望在網(wǎng)格上放置一些矩形圖塊,這些圖塊的大小不同,但每個(gè)圖塊的每一條邊都位于網(wǎng)格線上,并且每個(gè)單位正方形最多被一個(gè)圖塊覆蓋。
網(wǎng)格的每一行和每一列都恰好有一個(gè)未被任何瓷磚覆蓋的單位正方形,求出 Matilda 需要放置的最少瓷磚數(shù)量。
雖然投入海量算力最終僅得到一句“我無(wú)法回答”令人有些失望,但 Alex Wei 表示:
能看到模型避免產(chǎn)生幻覺(jué)是很好的。
Noam Brown 也對(duì)模型的這一轉(zhuǎn)變表示贊賞,“如果它不知道,它就會(huì)承認(rèn)它不知道。”
這代表模型開(kāi)始具備“自我意識(shí)”。
這種“自我意識(shí)”可以幫助模型在面對(duì)困難問(wèn)題時(shí),承認(rèn)自己的無(wú)能為力,而不是生成一個(gè)看似合理實(shí)則錯(cuò)誤的解決方案。
有趣的是,在 Alex Wei 2024 年剛加入 OpenAI 一周時(shí),Noam Brown 就曾問(wèn)過(guò)他,團(tuán)隊(duì)何時(shí)能獲得 IMO 金牌。
當(dāng)時(shí) Alex Wei 認(rèn)為 2025 年不太可能實(shí)現(xiàn)。
但令人驚嘆的是,這個(gè)三人團(tuán)隊(duì)僅用了兩月,就完成了他們一直在追求的目標(biāo) ——IMO 金牌。
Noam Brown 還表示:
OpenAI 有一個(gè)很棒的地方,就是研究人員有很大的自主權(quán)去做他們認(rèn)為有影響力的研究。
Alex 還強(qiáng)調(diào),他們的團(tuán)隊(duì)“真正優(yōu)先考慮通用技術(shù)”,而不是專(zhuān)門(mén)開(kāi)發(fā)用于數(shù)學(xué)競(jìng)賽的系統(tǒng)。
OpenAI IMO 金牌核心團(tuán)隊(duì)OpenAI IMO 核心團(tuán)隊(duì)僅由三名研究人員構(gòu)成。
Alex Wei,本碩均就讀于哈佛大學(xué),隨后在加州大學(xué)伯克利分校獲得計(jì)算機(jī)科學(xué)博士學(xué)位。
Alex 還曾在谷歌、微軟和 Meta 實(shí)習(xí),后于 2024 年 1 月加入 OpenAI,現(xiàn)任研究科學(xué)家。他曾是 FAIR 團(tuán)隊(duì)成員,參與開(kāi)發(fā)了首個(gè)用于外交游戲的人類(lèi)級(jí)人工智能 ——CICERO。
Sheryl Hsu,畢業(yè)于斯坦福大學(xué)計(jì)算機(jī)科學(xué)專(zhuān)業(yè),是斯坦福 AI 實(shí)驗(yàn)室中 IRIS 實(shí)驗(yàn)室的研究員,于 2025 年 3 月加入 OpenAI。
Noam Brown,本科就讀于美國(guó)羅格斯新澤西州立大學(xué)新布朗斯維克分校,隨后在卡內(nèi)基?梅隆大學(xué)獲碩士和博士學(xué)位。他曾任職于 DeepMind 和 Meta,于 2023 年 6 月加入 OpenAI。
參考鏈接:
[1]https://x.com/chatgpt21/status/1950606890758476264
[2]https://www.youtube.com/watch?v=EEIPtofVe2Q
本文來(lái)自微信公眾號(hào):量子位(ID:QbitAI),作者:時(shí)令
本文鏈接:http://www.www897cc.com/showinfo-45-25816-0.htmlAI 答 IMO 難題坦承“不會(huì)”,OpenAI 稱(chēng)“這就是自我意識(shí)”
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: OpenAI 教育負(fù)責(zé)人呼吁:學(xué)生應(yīng)將 ChatGPT 視為工具而非“答題機(jī)器”
下一篇: 昆侖萬(wàn)維發(fā)布并開(kāi)源全新推理大模型 MindLink,基于 Qwen3-32B 和 Qwen2.5-72B 進(jìn)行后訓(xùn)練