日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 元宇宙 > AI

陶哲軒提前實(shí)測(cè)滿血版 OpenAI o1:能當(dāng)研究生使喚

來源: 責(zé)編: 時(shí)間:2024-09-19 16:23:32 100觀看
導(dǎo)讀 原來早在 8 月份,陶哲軒就已經(jīng)用上了 OpenAI o1。還是現(xiàn)在大家都用不上的滿血版本(眼淚不爭(zhēng)氣地從嘴角流出來)。提前批大佬是怎么玩最新天花板的呢?他向 o1 模型提出一個(gè)措辭模糊的數(shù)學(xué)問題,發(fā)現(xiàn)它竟然能成功識(shí)別

原來早在 8 月份,陶哲軒就已經(jīng)用上了 OpenAI o1。還是現(xiàn)在大家都用不上的滿血版本(眼淚不爭(zhēng)氣地從嘴角流出來)。o1028資訊網(wǎng)——每日最新資訊28at.com

提前批大佬是怎么玩最新天花板的呢?o1028資訊網(wǎng)——每日最新資訊28at.com

他向 o1 模型提出一個(gè)措辭模糊的數(shù)學(xué)問題,發(fā)現(xiàn)它竟然能成功識(shí)別出克萊姆定理。o1028資訊網(wǎng)——每日最新資訊28at.com

而且答案是“完全令人滿意的”那種。o1028資訊網(wǎng)——每日最新資訊28at.com

當(dāng)然,陶哲軒還做了一些其它測(cè)試,測(cè)下來總體體驗(yàn)就是:o1028資訊網(wǎng)——每日最新資訊28at.com

比以前的模型更牛,多堆點(diǎn)提示詞表現(xiàn)還不錯(cuò),但仍然會(huì)犯不小的錯(cuò)誤,也沒有產(chǎn)生啥自己的思想。o1028資訊網(wǎng)——每日最新資訊28at.com

陶哲軒是這樣形容的:o1028資訊網(wǎng)——每日最新資訊28at.com

這種感覺,就像給一個(gè)平庸無奇但又有點(diǎn)小能力的研究生提供建議。o1028資訊網(wǎng)——每日最新資訊28at.com

不過,這已經(jīng)比以前的模型有所改進(jìn),因?yàn)橐郧暗哪P偷哪芰Ω咏趯?shí)際上不稱職的研究生。o1028資訊網(wǎng)——每日最新資訊28at.com

但如果給以前的模型加點(diǎn)助力,比如計(jì)算機(jī)代數(shù)包和證明輔助工具啥的,改進(jìn)一兩次,就能實(shí)現(xiàn)進(jìn)一步迭代,搖身一變,成為“有能力的研究生”。o1028資訊網(wǎng)——每日最新資訊28at.com

o1028資訊網(wǎng)——每日最新資訊28at.com

陶哲軒對(duì)使用體驗(yàn)的這個(gè)神奇比喻在 HackerNews 等多個(gè)平臺(tái)引起了激烈討論。o1028資訊網(wǎng)——每日最新資訊28at.com

有網(wǎng)友憤憤:GPT 是什么 **!我承認(rèn) LLMs 對(duì)寫代碼有很大幫助,但事實(shí)上有一些非常好的工具可以幫助解決這一問題,例如代碼片段、模板和代碼生成器。o1028資訊網(wǎng)——每日最新資訊28at.com

有人就用陶哲軒的話回應(yīng)了他:o1028資訊網(wǎng)——每日最新資訊28at.com

“任何聰明到足以以編程為生的人,智商都足以成為一個(gè)平平無奇但又小有能力的數(shù)學(xué)研究生。”o1028資訊網(wǎng)——每日最新資訊28at.com

o1028資訊網(wǎng)——每日最新資訊28at.com

陶哲軒實(shí)測(cè) ChatGPT vs o1

陶哲軒展示了他自己的三輪測(cè)試。o1028資訊網(wǎng)——每日最新資訊28at.com

第一輪,用去年 3 月份測(cè)試 ChatGPT 的題目,要求大模型回答一個(gè)措辭含糊的數(shù)學(xué)問題,只要從文獻(xiàn)中找出一個(gè)合適的定理(克萊姆法則)就能解決。o1028資訊網(wǎng)——每日最新資訊28at.com

Say I have a positive measure whose closure(support) = some compact convex subset S. I convolve n times to get a measure on nS. Scale down by n, take log, divide by n, take the limit to get some rounded thing on S. Does it depend on the original measure?o1028資訊網(wǎng)——每日最新資訊28at.com

o1028資訊網(wǎng)——每日最新資訊28at.com

當(dāng)時(shí),ChatGPT 倒是有模有樣地回答了,期間還提到了一個(gè)高度相關(guān)的術(shù)語:對(duì)數(shù)矩生成函數(shù),甚至在給出的答案中還討論了一個(gè)具體的例子。不過不能注意細(xì)節(jié),全是幻覺,而且答案也是錯(cuò)的。o1028資訊網(wǎng)——每日最新資訊28at.com

這一次,同樣有模有樣,但相較之下更有條理(更長(zhǎng)還有大小標(biāo)題區(qū)分度)。o1028資訊網(wǎng)——每日最新資訊28at.com

最重要的是,o1 成功找到了克萊姆定理,并給出了完全令人滿意的答案。o1028資訊網(wǎng)——每日最新資訊28at.com

o1028資訊網(wǎng)——每日最新資訊28at.com

ps,看記錄,早在 8 月份陶哲軒就用上了 o1。o1028資訊網(wǎng)——每日最新資訊28at.com

o1028資訊網(wǎng)——每日最新資訊28at.com

第二輪,上一點(diǎn)難度,挑戰(zhàn)復(fù)雜分析研究生課程的一個(gè)問題。o1028資訊網(wǎng)——每日最新資訊28at.com

(之前他用來測(cè)試 GPT-4 的,要求他來協(xié)助編寫一個(gè)證明)o1028資訊網(wǎng)——每日最新資訊28at.com

o1028資訊網(wǎng)——每日最新資訊28at.com

結(jié)果這次陶哲軒的結(jié)論是,是要比之前 GPT-4 好些,但仍有點(diǎn)失望。o1028資訊網(wǎng)——每日最新資訊28at.com

如果提供大量的提示和鼓勵(lì),新模型可以通過自己的努力得到一個(gè)正確的(而且寫得很好的)解決方案,但它自己并沒有產(chǎn)生關(guān)鍵的概念想法,而且確實(shí)犯了一些非同小可的錯(cuò)誤。o1028資訊網(wǎng)——每日最新資訊28at.com

光看到這幾輪提示交互,確實(shí)是有點(diǎn)不滿意的。o1028資訊網(wǎng)——每日最新資訊28at.com

也難怪陶哲軒代入自己,把調(diào)教 o1 像是在教一個(gè)平庸、但又不是完全不稱職的研究生。o1028資訊網(wǎng)——每日最新資訊28at.com

o1028資訊網(wǎng)——每日最新資訊28at.com

o1028資訊網(wǎng)——每日最新資訊28at.com

o1028資訊網(wǎng)——每日最新資訊28at.com

緊接著來第三輪測(cè)試,這一次是要求將質(zhì)數(shù)定理的一種形式轉(zhuǎn)化為 Lean 中的定理形式,方法是將其分解為若干個(gè)子問題分別描述,但不給出證明。o1028資訊網(wǎng)——每日最新資訊28at.com

o1028資訊網(wǎng)——每日最新資訊28at.com

結(jié)果模型很好地理解了這個(gè)任務(wù),并進(jìn)行了合理的初步分解,不過代碼中出現(xiàn)了幾個(gè)小錯(cuò)誤。o1028資訊網(wǎng)——每日最新資訊28at.com

o1028資訊網(wǎng)——每日最新資訊28at.com

陶哲軒解釋道,這是由于訓(xùn)練時(shí)缺乏有關(guān) Lean 及其數(shù)學(xué)庫的最新信息。o1028資訊網(wǎng)——每日最新資訊28at.com

并表示,如果能專門針對(duì) Lean 和 Mathlib 進(jìn)行微調(diào),并集成到一個(gè) IDE 中,那應(yīng)該會(huì)對(duì)公式化項(xiàng)目很有用。o1028資訊網(wǎng)——每日最新資訊28at.com

在研究數(shù)學(xué)層面的實(shí)用性在增加

用大模型來搞研究,其實(shí)已經(jīng)飛入尋常百姓家了。o1028資訊網(wǎng)——每日最新資訊28at.com

一位賬號(hào)名為 wenc 的網(wǎng)友分享了 ta 使用大模型來做研究的經(jīng)歷。o1028資訊網(wǎng)——每日最新資訊28at.com

wenc 從事著運(yùn)籌學(xué)相關(guān)的工作,而 OpenAI 的模型們,從 GPT 4o 開始,就吸收了足夠多的運(yùn)籌學(xué)數(shù)據(jù),能夠輸出很多非常有用的混合整數(shù)規(guī)劃(MIP)公式。o1028資訊網(wǎng)——每日最新資訊28at.com

舉個(gè)栗子:o1028資訊網(wǎng)——每日最新資訊28at.com

給 4o 一個(gè)邏輯問題,如“我需要根據(jù)分?jǐn)?shù)將 i 個(gè)項(xiàng)目放入 n 個(gè)桶中,但我想按順序填充每個(gè)桶”,4o 會(huì)輸出一個(gè)非常有用的數(shù)學(xué)公式。o1028資訊網(wǎng)——每日最新資訊28at.com

通常情況下,只需要把公式微調(diào)一下就能完全搞定問題了。o1028資訊網(wǎng)——每日最新資訊28at.com

此外,一些 prompt 太弱了的時(shí)候,4o 還會(huì)預(yù)警:這可能導(dǎo)致輸出不盡如人意 —— 可以說對(duì)避免無效回答非常有用了。o1028資訊網(wǎng)——每日最新資訊28at.com

回過頭看咱還用不上大模型的時(shí)候,傳統(tǒng)方法是需要大家在周末絞盡腦汁,試圖找出有關(guān) MIP 優(yōu)化問題的無懈可擊的公式。o1028資訊網(wǎng)——每日最新資訊28at.com

對(duì)于非直觀問題來說,這一點(diǎn)通常都令人頭禿。o1028資訊網(wǎng)——每日最新資訊28at.com

wenc 很堅(jiān)定地表示,每月從 ChatGPT 上獲得的價(jià)值,遠(yuǎn)遠(yuǎn)超出了 20 美元(每月訂閱費(fèi)用)。o1028資訊網(wǎng)——每日最新資訊28at.com

一旦 GPT 在 Lean 上得到更多調(diào)整 —— 就像在 Python 上一樣 —— 我預(yù)計(jì)它在研究數(shù)學(xué)層面的實(shí)用性會(huì)有提升。o1028資訊網(wǎng)——每日最新資訊28at.com

wenc 還對(duì)那些抱怨 Claude 和 GPT 最新模型不好用的網(wǎng)友進(jìn)行了分析:o1028資訊網(wǎng)——每日最新資訊28at.com

不知道如何最大化自己的優(yōu)勢(shì)來使用大模型們;o1028資訊網(wǎng)——每日最新資訊28at.com

把大模型想得無所不能,抱著“這玩意兒是解決一切的靈丹妙藥”的期待;o1028資訊網(wǎng)——每日最新資訊28at.com

大模型確實(shí)在他們的領(lǐng)域不適用。o1028資訊網(wǎng)——每日最新資訊28at.com

wenc 在最后弱弱補(bǔ)了一句,很多抱怨的人,其實(shí)都是屬于前兩種啦~~~o1028資訊網(wǎng)——每日最新資訊28at.com

陶哲軒回應(yīng)爭(zhēng)議

盡管大多數(shù)網(wǎng)友都覺得大模型能幫助自己省下許多功夫,還是有人對(duì)陶哲軒“調(diào)教大模型如同調(diào)教不咋靠譜的研究生”的言論,充滿了疑惑和不解。o1028資訊網(wǎng)——每日最新資訊28at.com

有網(wǎng)友在陶哲軒的 mathstodon 底下留言:o1028資訊網(wǎng)——每日最新資訊28at.com

親,也許你可以展開說說“研究生”這塊不?o1028資訊網(wǎng)——每日最新資訊28at.com

我理解一下子,你的意思是 o1 之前大模型放在 Lean 微調(diào),再結(jié)合計(jì)算機(jī)代數(shù)包,那輸出效果就可以媲美研究生水平?o1028資訊網(wǎng)——每日最新資訊28at.com

簡(jiǎn)單點(diǎn)來說,這種情況下的大模型能夠解決一些新發(fā)現(xiàn)的重要課題?o1028資訊網(wǎng)——每日最新資訊28at.com

o1028資訊網(wǎng)——每日最新資訊28at.com

陶哲軒倒是很及時(shí)地回復(fù)了這條評(píng)論。o1028資訊網(wǎng)——每日最新資訊28at.com

他表示,他正在考慮一個(gè)具體的指標(biāo),即“助手能夠在專家數(shù)學(xué)家的指導(dǎo)下,協(xié)助完成復(fù)雜數(shù)學(xué)研究項(xiàng)目中的一個(gè)或多個(gè)具體任務(wù)”的程度。o1028資訊網(wǎng)——每日最新資訊28at.com

一個(gè)有能力的研究生可以為這樣的項(xiàng)目作出貢獻(xiàn),且這種貢獻(xiàn)比“讓學(xué)生加快項(xiàng)目進(jìn)度并監(jiān)督他們出了幾成力”更有價(jià)值。o1028資訊網(wǎng)——每日最新資訊28at.com

不過,即使使用最新的工具,讓大模型輸出正確且有用的回答,其實(shí)比輸入精準(zhǔn) prompt 和驗(yàn)證結(jié)果都要難多了 —— 當(dāng)然,這之間的差距并不是特別巨大,前者大概要難個(gè) 2-5 倍的樣子。o1028資訊網(wǎng)——每日最新資訊28at.com

陶哲軒表示自己有理由相信,未來幾年內(nèi),這個(gè)差距會(huì)降低到 1 倍以內(nèi)(其實(shí)有些特定子任務(wù),比如語義搜索、數(shù)據(jù)格式化或生成數(shù)字代碼以協(xié)助數(shù)學(xué)研究探索,這個(gè)比率已經(jīng)低于 1 了)。o1028資訊網(wǎng)——每日最新資訊28at.com

他視“差距降到 1 倍以內(nèi)”為數(shù)學(xué)領(lǐng)域?qū)⒏鼜V泛采用這些的轉(zhuǎn)折點(diǎn)。o1028資訊網(wǎng)——每日最新資訊28at.com

至于“研究生水平”嘛 ——o1028資訊網(wǎng)——每日最新資訊28at.com

陶哲軒表示,自己這么說,只是為了方便大家感知啦!o1028資訊網(wǎng)——每日最新資訊28at.com

雖然大模型可以協(xié)助研究人員完成當(dāng)前的項(xiàng)目,但培養(yǎng)研究生的目的,是為了以后有更多的下一代獨(dú)立研究者。o1028資訊網(wǎng)——每日最新資訊28at.com

“我無意暗示研究生學(xué)習(xí)的各個(gè)方面,與數(shù)學(xué)中 AI 輔助的各個(gè)方面之間存在一一對(duì)應(yīng)的關(guān)系。”o1028資訊網(wǎng)——每日最新資訊28at.com

o1028資訊網(wǎng)——每日最新資訊28at.com

One More Thing

最后,分享一則陶哲軒這個(gè)話題下,我們發(fā)現(xiàn)網(wǎng)友討論出的、呼聲挺高的一個(gè)結(jié)論 ——o1028資訊網(wǎng)——每日最新資訊28at.com

雖然很難量化學(xué)會(huì)用大模型到底省了多少時(shí)間,但隨著一個(gè)人提示詞工程能力的提升,大伙兒能用更少的時(shí)間得到更好的效果。o1028資訊網(wǎng)——每日最新資訊28at.com

但是!o1028資訊網(wǎng)——每日最新資訊28at.com

顯而易見,大模型的價(jià)值是因人而異的,它幾乎取決于每個(gè)人的提示詞水平。o1028資訊網(wǎng)——每日最新資訊28at.com

呃,羞愧中……o1028資訊網(wǎng)——每日最新資訊28at.com

不說了,過什么中秋節(jié)假期,咱這就去精進(jìn)自己的 prompt 技巧去!o1028資訊網(wǎng)——每日最新資訊28at.com

參考鏈接:o1028資訊網(wǎng)——每日最新資訊28at.com

[1]https://mathstodon.xyz/@tao/113132502735585408o1028資訊網(wǎng)——每日最新資訊28at.com

[2]https://news.ycombinator.com/item?id=41540902o1028資訊網(wǎng)——每日最新資訊28at.com

[3]https://mathstodon.xyz/@tao/109948249160170335o1028資訊網(wǎng)——每日最新資訊28at.com

本文來自微信公眾號(hào):量子位(ID:QbitAI),作者:白小交衡宇o1028資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-7486-0.html陶哲軒提前實(shí)測(cè)滿血版 OpenAI o1:能當(dāng)研究生使喚

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: 消息稱字節(jié)跳動(dòng)計(jì)劃與臺(tái)積電合作,2026 年前量產(chǎn)兩款自主設(shè)計(jì) AI 芯片

下一篇: 專家警告:AI 能耗巨大,加劇氣候危機(jī)

標(biāo)簽:
  • 熱門焦點(diǎn)
Top 主站蜘蛛池模板: 镇远县| 大悟县| 巧家县| 塔河县| 阳春市| 三原县| 张家界市| 上杭县| 霍林郭勒市| 墨竹工卡县| 莱芜市| 怀仁县| 石泉县| 大余县| 吴旗县| 金湖县| 双峰县| 和硕县| 肇源县| 漳平市| 宜阳县| 平罗县| 奉贤区| 利辛县| 崇仁县| 霞浦县| 阿巴嘎旗| 海城市| 嘉义县| 那坡县| 远安县| 西丰县| 西乡县| 马鞍山市| 汽车| 三台县| 新巴尔虎左旗| 高邮市| 扎囊县| 宁都县| 临泽县|