日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 元宇宙 > AI

o1 核心作者 MIT 演講:激勵 AI 自我學(xué)習(xí),比試圖教會 AI 每一項任務(wù)更重要

來源: 責(zé)編: 時間:2024-09-24 16:21:10 109觀看
導(dǎo)讀 “o1 發(fā)布后,一個新的范式產(chǎn)生了”。其中關(guān)鍵,OpenAI 研究科學(xué)家、o1 核心貢獻者 Hyung Won Chung,剛剛就此分享了他在 MIT 的一次演講。演講主題為“Don’t teach. Incentivize(不要教,要激勵),核心觀點是:激勵 AI

“o1 發(fā)布后,一個新的范式產(chǎn)生了”。aZy28資訊網(wǎng)——每日最新資訊28at.com

其中關(guān)鍵,OpenAI 研究科學(xué)家、o1 核心貢獻者 Hyung Won Chung,剛剛就此分享了他在 MIT 的一次演講。aZy28資訊網(wǎng)——每日最新資訊28at.com

演講主題為“Don’t teach. Incentivize(不要教,要激勵),核心觀點是:aZy28資訊網(wǎng)——每日最新資訊28at.com

激勵 AI 自我學(xué)習(xí)比試圖教會 AI 每一項具體任務(wù)更重要aZy28資訊網(wǎng)——每日最新資訊28at.com

aZy28資訊網(wǎng)——每日最新資訊28at.com

思維鏈作者 Jason Wei 迅速趕來打 call:aZy28資訊網(wǎng)——每日最新資訊28at.com

Hyung Won 識別新范式并完全放棄任何沉沒成本的能力給我留下了深刻的印象。aZy28資訊網(wǎng)——每日最新資訊28at.com

2022 年底,他意識到了強化學(xué)習(xí)的力量,并從那時起就一直在宣揚它。aZy28資訊網(wǎng)——每日最新資訊28at.com

aZy28資訊網(wǎng)——每日最新資訊28at.com

在演講中,Hyung Won 還分享了:aZy28資訊網(wǎng)——每日最新資訊28at.com

技術(shù)人員過于關(guān)注問題解決本身,但更重要的是發(fā)現(xiàn)重大問題;aZy28資訊網(wǎng)——每日最新資訊28at.com

硬件進步呈指數(shù)級增長,軟件和算法需要跟上;aZy28資訊網(wǎng)——每日最新資訊28at.com

當(dāng)前存在一個誤區(qū),即人們正在試圖讓 AI 學(xué)會像人類一樣思考;aZy28資訊網(wǎng)——每日最新資訊28at.com

“僅僅擴展規(guī)模”往往在長期內(nèi)更有效;aZy28資訊網(wǎng)——每日最新資訊28at.com

……aZy28資訊網(wǎng)——每日最新資訊28at.com

下面奉上演講主要內(nèi)容。aZy28資訊網(wǎng)——每日最新資訊28at.com

對待 AI:授人以魚不如授人以漁

先簡單介紹下 Hyung Won Chung,從公布的 o1 背后人員名單來看,他屬于推理研究的基礎(chǔ)貢獻者。aZy28資訊網(wǎng)——每日最新資訊28at.com

aZy28資訊網(wǎng)——每日最新資訊28at.com

資料顯示,他是 MIT 博士(方向為可再生能源和能源系統(tǒng)),去年 2 月加入 OpenAI 擔(dān)任研究科學(xué)家。aZy28資訊網(wǎng)——每日最新資訊28at.com

加入 OpenAI 之前,他在 Google Brain 負責(zé)大語言模型的預(yù)訓(xùn)練、指令微調(diào)、推理、多語言、訓(xùn)練基礎(chǔ)設(shè)施等。aZy28資訊網(wǎng)——每日最新資訊28at.com

aZy28資訊網(wǎng)——每日最新資訊28at.com

在谷歌工作期間,曾以一作身份,發(fā)表了關(guān)于模型微調(diào)的論文。(思維鏈作者 Jason Wei 同為一作)aZy28資訊網(wǎng)——每日最新資訊28at.com

aZy28資訊網(wǎng)——每日最新資訊28at.com

回到正題。在 MIT 的演講中,他首先提到:aZy28資訊網(wǎng)——每日最新資訊28at.com

通往 AGI 唯一可行的方法是激勵模型,使通用技能出現(xiàn)。aZy28資訊網(wǎng)——每日最新資訊28at.com

在他看來,AI 領(lǐng)域正處于一次范式轉(zhuǎn)變,即從傳統(tǒng)的直接教授技能轉(zhuǎn)向激勵模型自我學(xué)習(xí)和發(fā)展通用技能。aZy28資訊網(wǎng)——每日最新資訊28at.com

理由也很直觀,AGI 所包含的技能太多了,無法一一學(xué)習(xí)。(主打以不變應(yīng)萬變)aZy28資訊網(wǎng)——每日最新資訊28at.com

aZy28資訊網(wǎng)——每日最新資訊28at.com

具體咋激勵呢??aZy28資訊網(wǎng)——每日最新資訊28at.com

他以下一個 token 預(yù)測為例,說明了這種弱激勵結(jié)構(gòu)如何通過大規(guī)模多任務(wù)學(xué)習(xí),鼓勵模型學(xué)習(xí)解決數(shù)萬億個任務(wù)的通用技能,而不是單獨解決每個任務(wù)。aZy28資訊網(wǎng)——每日最新資訊28at.com

他觀察到:aZy28資訊網(wǎng)——每日最新資訊28at.com

如果嘗試以盡可能少的努力解決數(shù)十個任務(wù),那么單獨模式識別每個任務(wù)可能是最簡單的;aZy28資訊網(wǎng)——每日最新資訊28at.com

如果嘗試解決數(shù)萬億個任務(wù),通過學(xué)習(xí)通用技能(例如語言、推理等)可能會更容易解決它們。aZy28資訊網(wǎng)——每日最新資訊28at.com

aZy28資訊網(wǎng)——每日最新資訊28at.com

對此他打了個比方,“授人以魚不如授人以漁”,用一種基于激勵的方法來解決任務(wù)。aZy28資訊網(wǎng)——每日最新資訊28at.com

Teach him the taste of fish and make him hungry.(教 AI 嘗嘗魚的味道,讓他餓一下)aZy28資訊網(wǎng)——每日最新資訊28at.com

然后 AI 就會自己出去釣魚,在此過程中,AI 將學(xué)習(xí)其他技能,例如耐心、學(xué)習(xí)閱讀天氣、了解魚等。aZy28資訊網(wǎng)——每日最新資訊28at.com

其中一些技能是通用的,可以應(yīng)用于其他任務(wù)。aZy28資訊網(wǎng)——每日最新資訊28at.com

面對這一“循循善誘”的過程,也許有人認(rèn)為還不如直接教來得快。aZy28資訊網(wǎng)——每日最新資訊28at.com

但在 Hyung Won 看來:aZy28資訊網(wǎng)——每日最新資訊28at.com

對于人類來說確實如此,但是對于機器來說,我們可以提供更多的計算來縮短時間。aZy28資訊網(wǎng)——每日最新資訊28at.com

aZy28資訊網(wǎng)——每日最新資訊28at.com

換句話說,面對有限的時間,人類也許還要在專家 or 通才之間做選擇,但對于機器來說,算力就能出奇跡。aZy28資訊網(wǎng)——每日最新資訊28at.com

他又舉例說明,《龍珠》里有一個設(shè)定:在特殊訓(xùn)練場所,角色能在外界感覺只是一天的時間內(nèi)獲得一年的修煉效果。aZy28資訊網(wǎng)——每日最新資訊28at.com

對于機器來說,這個感知差值要高得多。aZy28資訊網(wǎng)——每日最新資訊28at.com

因此,具有更多計算能力的強大通才通常比專家更擅長特殊領(lǐng)域。aZy28資訊網(wǎng)——每日最新資訊28at.com

原因也眾所周知,大型通用模型能夠通過大規(guī)模的訓(xùn)練和學(xué)習(xí),快速適應(yīng)和掌握新的任務(wù)和領(lǐng)域,而不需要從頭開始訓(xùn)練。aZy28資訊網(wǎng)——每日最新資訊28at.com

aZy28資訊網(wǎng)——每日最新資訊28at.com

他還補充道,數(shù)據(jù)顯示計算能力大約每 5 年提高 10 倍。aZy28資訊網(wǎng)——每日最新資訊28at.com

aZy28資訊網(wǎng)——每日最新資訊28at.com

總結(jié)下來,Hyung Won 認(rèn)為核心在于:aZy28資訊網(wǎng)——每日最新資訊28at.com

模型的可擴展性aZy28資訊網(wǎng)——每日最新資訊28at.com

算力對加速模型進化至關(guān)重要aZy28資訊網(wǎng)——每日最新資訊28at.com

此外,他還認(rèn)為當(dāng)前存在一個誤區(qū),即人們正在試圖讓 AI 學(xué)會像人類一樣思考。aZy28資訊網(wǎng)——每日最新資訊28at.com

但問題是,我們并不知道自己在神經(jīng)元層面是如何思考的。aZy28資訊網(wǎng)——每日最新資訊28at.com

機器應(yīng)該有更多的自主性來選擇如何學(xué)習(xí),而不是被限制在人類理解的數(shù)學(xué)語言和結(jié)構(gòu)中。aZy28資訊網(wǎng)——每日最新資訊28at.com

在他看來,一個系統(tǒng)或算法過于依賴人為設(shè)定的規(guī)則和結(jié)構(gòu),那么它可能難以適應(yīng)新的、未預(yù)見的情況或數(shù)據(jù)。aZy28資訊網(wǎng)——每日最新資訊28at.com

造成的結(jié)果就是,面對更大規(guī)模或更復(fù)雜的問題時,其擴展能力將會受限。aZy28資訊網(wǎng)——每日最新資訊28at.com

aZy28資訊網(wǎng)——每日最新資訊28at.com

回顧 AI 過去 70 年的發(fā)展,他總結(jié)道:aZy28資訊網(wǎng)——每日最新資訊28at.com

AI 的進步與減少人為結(jié)構(gòu)、增加數(shù)據(jù)和計算能力息息相關(guān)。aZy28資訊網(wǎng)——每日最新資訊28at.com

與此同時,面對當(dāng)前人們對 scaling Law 的質(zhì)疑,即認(rèn)為僅僅擴大計算規(guī)模可能被認(rèn)為不夠科學(xué)或有趣。aZy28資訊網(wǎng)——每日最新資訊28at.com

Hyung Won 的看法是:aZy28資訊網(wǎng)——每日最新資訊28at.com

在擴展一個系統(tǒng)或模型的過程中,我們需要找出那些阻礙擴展的假設(shè)或限制條件。aZy28資訊網(wǎng)——每日最新資訊28at.com

舉個例子,在機器學(xué)習(xí)中,一個模型可能在小數(shù)據(jù)集上表現(xiàn)良好,但是當(dāng)數(shù)據(jù)量增加時,模型的性能可能會下降,或者訓(xùn)練時間會變得不可接受。aZy28資訊網(wǎng)——每日最新資訊28at.com

這時,可能需要改進算法,優(yōu)化數(shù)據(jù)處理流程,或者改變模型結(jié)構(gòu),以適應(yīng)更大的數(shù)據(jù)量和更復(fù)雜的任務(wù)。aZy28資訊網(wǎng)——每日最新資訊28at.com

也就是說,一旦識別出瓶頸,就需要通過創(chuàng)新和改進來替換這些假設(shè),以便模型或系統(tǒng)能夠在更大的規(guī)模上有效運行。aZy28資訊網(wǎng)——每日最新資訊28at.com

訓(xùn)練 VS 推理:效果相似,推理成本卻便宜 1000 億倍

除了上述,o1 另一核心作者 Noam Brown 也分享了一個觀點:aZy28資訊網(wǎng)——每日最新資訊28at.com

訓(xùn)練和推理對模型性能提升作用相似,但后者成本更低,便宜 1000 億倍。aZy28資訊網(wǎng)——每日最新資訊28at.com

aZy28資訊網(wǎng)——每日最新資訊28at.com

這意味著,在模型開發(fā)過程中,訓(xùn)練階段的資源消耗非常巨大,而實際使用模型進行推理時的成本則相對較低。aZy28資訊網(wǎng)——每日最新資訊28at.com

有人認(rèn)為這凸顯了未來模型優(yōu)化的潛力。aZy28資訊網(wǎng)——每日最新資訊28at.com

aZy28資訊網(wǎng)——每日最新資訊28at.com

不過也有人對此持懷疑態(tài)度,認(rèn)為二者壓根沒法拿來對比。aZy28資訊網(wǎng)——每日最新資訊28at.com

這是一個奇怪的比較。一個是邊際成本,另一個是固定成本。這就像說實體店比其中出售的商品貴 500000 倍。aZy28資訊網(wǎng)——每日最新資訊28at.com

aZy28資訊網(wǎng)——每日最新資訊28at.com

對此,你怎么看?aZy28資訊網(wǎng)——每日最新資訊28at.com

Hyung Won Chung 演講 PPT:aZy28資訊網(wǎng)——每日最新資訊28at.com

https://docs.google.com/presentation/d/1nnjXIuN2XDJENAOaKXI5srQscO3276svvP6JgivTv6w/edit#slide=id.g2d1161c9c52_0_20aZy28資訊網(wǎng)——每日最新資訊28at.com

參考鏈接:aZy28資訊網(wǎng)——每日最新資訊28at.com

[1]https://x.com/hwchung27/status/1836842717302943774aZy28資訊網(wǎng)——每日最新資訊28at.com

[2]https://x.com/tsarnick/status/1836215965912289306aZy28資訊網(wǎng)——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:一水aZy28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-7592-0.htmlo1 核心作者 MIT 演講:激勵 AI 自我學(xué)習(xí),比試圖教會 AI 每一項任務(wù)更重要

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 部分科技巨頭請求歐盟對 AI“從寬”監(jiān)管,避免數(shù)十億美元罰款風(fēng)險

下一篇: Redmi Note 14 Pro+豪配6200mAh大電池,還送電池保?

標(biāo)簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 香港| 芦山县| 吴江市| 类乌齐县| 金寨县| 凤翔县| 仲巴县| 廉江市| 娄底市| 南开区| 新邵县| 西青区| 南昌县| 安乡县| 蓝田县| 葵青区| 屏东县| 元氏县| 抚顺市| 依安县| 丰城市| 安远县| 成武县| 岱山县| 虹口区| 安国市| 曲松县| 蓬安县| 成武县| 房山区| 华池县| 广东省| 奉贤区| 云龙县| 舞钢市| 阳西县| 普兰店市| 淮滨县| 文昌市| 科尔| 肇源县|