日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 元宇宙 > AI

o1 核心作者 MIT 演講:激勵 AI 自我學(xué)習(xí),比試圖教會 AI 每一項任務(wù)更重要

來源: 責(zé)編: 時間:2024-09-24 16:21:10 72觀看
導(dǎo)讀 “o1 發(fā)布后,一個新的范式產(chǎn)生了”。其中關(guān)鍵,OpenAI 研究科學(xué)家、o1 核心貢獻者 Hyung Won Chung,剛剛就此分享了他在 MIT 的一次演講。演講主題為“Don’t teach. Incentivize(不要教,要激勵),核心觀點是:激勵 AI

“o1 發(fā)布后,一個新的范式產(chǎn)生了”。lKM28資訊網(wǎng)——每日最新資訊28at.com

其中關(guān)鍵,OpenAI 研究科學(xué)家、o1 核心貢獻者 Hyung Won Chung,剛剛就此分享了他在 MIT 的一次演講。lKM28資訊網(wǎng)——每日最新資訊28at.com

演講主題為“Don’t teach. Incentivize(不要教,要激勵),核心觀點是:lKM28資訊網(wǎng)——每日最新資訊28at.com

激勵 AI 自我學(xué)習(xí)比試圖教會 AI 每一項具體任務(wù)更重要lKM28資訊網(wǎng)——每日最新資訊28at.com

lKM28資訊網(wǎng)——每日最新資訊28at.com

思維鏈作者 Jason Wei 迅速趕來打 call:lKM28資訊網(wǎng)——每日最新資訊28at.com

Hyung Won 識別新范式并完全放棄任何沉沒成本的能力給我留下了深刻的印象。lKM28資訊網(wǎng)——每日最新資訊28at.com

2022 年底,他意識到了強化學(xué)習(xí)的力量,并從那時起就一直在宣揚它。lKM28資訊網(wǎng)——每日最新資訊28at.com

lKM28資訊網(wǎng)——每日最新資訊28at.com

在演講中,Hyung Won 還分享了:lKM28資訊網(wǎng)——每日最新資訊28at.com

技術(shù)人員過于關(guān)注問題解決本身,但更重要的是發(fā)現(xiàn)重大問題;lKM28資訊網(wǎng)——每日最新資訊28at.com

硬件進步呈指數(shù)級增長,軟件和算法需要跟上;lKM28資訊網(wǎng)——每日最新資訊28at.com

當(dāng)前存在一個誤區(qū),即人們正在試圖讓 AI 學(xué)會像人類一樣思考;lKM28資訊網(wǎng)——每日最新資訊28at.com

“僅僅擴展規(guī)模”往往在長期內(nèi)更有效;lKM28資訊網(wǎng)——每日最新資訊28at.com

……lKM28資訊網(wǎng)——每日最新資訊28at.com

下面奉上演講主要內(nèi)容。lKM28資訊網(wǎng)——每日最新資訊28at.com

對待 AI:授人以魚不如授人以漁

先簡單介紹下 Hyung Won Chung,從公布的 o1 背后人員名單來看,他屬于推理研究的基礎(chǔ)貢獻者。lKM28資訊網(wǎng)——每日最新資訊28at.com

lKM28資訊網(wǎng)——每日最新資訊28at.com

資料顯示,他是 MIT 博士(方向為可再生能源和能源系統(tǒng)),去年 2 月加入 OpenAI 擔(dān)任研究科學(xué)家。lKM28資訊網(wǎng)——每日最新資訊28at.com

加入 OpenAI 之前,他在 Google Brain 負責(zé)大語言模型的預(yù)訓(xùn)練、指令微調(diào)、推理、多語言、訓(xùn)練基礎(chǔ)設(shè)施等。lKM28資訊網(wǎng)——每日最新資訊28at.com

lKM28資訊網(wǎng)——每日最新資訊28at.com

在谷歌工作期間,曾以一作身份,發(fā)表了關(guān)于模型微調(diào)的論文。(思維鏈作者 Jason Wei 同為一作)lKM28資訊網(wǎng)——每日最新資訊28at.com

lKM28資訊網(wǎng)——每日最新資訊28at.com

回到正題。在 MIT 的演講中,他首先提到:lKM28資訊網(wǎng)——每日最新資訊28at.com

通往 AGI 唯一可行的方法是激勵模型,使通用技能出現(xiàn)。lKM28資訊網(wǎng)——每日最新資訊28at.com

在他看來,AI 領(lǐng)域正處于一次范式轉(zhuǎn)變,即從傳統(tǒng)的直接教授技能轉(zhuǎn)向激勵模型自我學(xué)習(xí)和發(fā)展通用技能。lKM28資訊網(wǎng)——每日最新資訊28at.com

理由也很直觀,AGI 所包含的技能太多了,無法一一學(xué)習(xí)。(主打以不變應(yīng)萬變)lKM28資訊網(wǎng)——每日最新資訊28at.com

lKM28資訊網(wǎng)——每日最新資訊28at.com

具體咋激勵呢??lKM28資訊網(wǎng)——每日最新資訊28at.com

他以下一個 token 預(yù)測為例,說明了這種弱激勵結(jié)構(gòu)如何通過大規(guī)模多任務(wù)學(xué)習(xí),鼓勵模型學(xué)習(xí)解決數(shù)萬億個任務(wù)的通用技能,而不是單獨解決每個任務(wù)。lKM28資訊網(wǎng)——每日最新資訊28at.com

他觀察到:lKM28資訊網(wǎng)——每日最新資訊28at.com

如果嘗試以盡可能少的努力解決數(shù)十個任務(wù),那么單獨模式識別每個任務(wù)可能是最簡單的;lKM28資訊網(wǎng)——每日最新資訊28at.com

如果嘗試解決數(shù)萬億個任務(wù),通過學(xué)習(xí)通用技能(例如語言、推理等)可能會更容易解決它們。lKM28資訊網(wǎng)——每日最新資訊28at.com

lKM28資訊網(wǎng)——每日最新資訊28at.com

對此他打了個比方,“授人以魚不如授人以漁”,用一種基于激勵的方法來解決任務(wù)。lKM28資訊網(wǎng)——每日最新資訊28at.com

Teach him the taste of fish and make him hungry.(教 AI 嘗嘗魚的味道,讓他餓一下)lKM28資訊網(wǎng)——每日最新資訊28at.com

然后 AI 就會自己出去釣魚,在此過程中,AI 將學(xué)習(xí)其他技能,例如耐心、學(xué)習(xí)閱讀天氣、了解魚等。lKM28資訊網(wǎng)——每日最新資訊28at.com

其中一些技能是通用的,可以應(yīng)用于其他任務(wù)。lKM28資訊網(wǎng)——每日最新資訊28at.com

面對這一“循循善誘”的過程,也許有人認為還不如直接教來得快。lKM28資訊網(wǎng)——每日最新資訊28at.com

但在 Hyung Won 看來:lKM28資訊網(wǎng)——每日最新資訊28at.com

對于人類來說確實如此,但是對于機器來說,我們可以提供更多的計算來縮短時間。lKM28資訊網(wǎng)——每日最新資訊28at.com

lKM28資訊網(wǎng)——每日最新資訊28at.com

換句話說,面對有限的時間,人類也許還要在專家 or 通才之間做選擇,但對于機器來說,算力就能出奇跡。lKM28資訊網(wǎng)——每日最新資訊28at.com

他又舉例說明,《龍珠》里有一個設(shè)定:在特殊訓(xùn)練場所,角色能在外界感覺只是一天的時間內(nèi)獲得一年的修煉效果。lKM28資訊網(wǎng)——每日最新資訊28at.com

對于機器來說,這個感知差值要高得多。lKM28資訊網(wǎng)——每日最新資訊28at.com

因此,具有更多計算能力的強大通才通常比專家更擅長特殊領(lǐng)域。lKM28資訊網(wǎng)——每日最新資訊28at.com

原因也眾所周知,大型通用模型能夠通過大規(guī)模的訓(xùn)練和學(xué)習(xí),快速適應(yīng)和掌握新的任務(wù)和領(lǐng)域,而不需要從頭開始訓(xùn)練。lKM28資訊網(wǎng)——每日最新資訊28at.com

lKM28資訊網(wǎng)——每日最新資訊28at.com

他還補充道,數(shù)據(jù)顯示計算能力大約每 5 年提高 10 倍。lKM28資訊網(wǎng)——每日最新資訊28at.com

lKM28資訊網(wǎng)——每日最新資訊28at.com

總結(jié)下來,Hyung Won 認為核心在于:lKM28資訊網(wǎng)——每日最新資訊28at.com

模型的可擴展性lKM28資訊網(wǎng)——每日最新資訊28at.com

算力對加速模型進化至關(guān)重要lKM28資訊網(wǎng)——每日最新資訊28at.com

此外,他還認為當(dāng)前存在一個誤區(qū),即人們正在試圖讓 AI 學(xué)會像人類一樣思考。lKM28資訊網(wǎng)——每日最新資訊28at.com

但問題是,我們并不知道自己在神經(jīng)元層面是如何思考的。lKM28資訊網(wǎng)——每日最新資訊28at.com

機器應(yīng)該有更多的自主性來選擇如何學(xué)習(xí),而不是被限制在人類理解的數(shù)學(xué)語言和結(jié)構(gòu)中。lKM28資訊網(wǎng)——每日最新資訊28at.com

在他看來,一個系統(tǒng)或算法過于依賴人為設(shè)定的規(guī)則和結(jié)構(gòu),那么它可能難以適應(yīng)新的、未預(yù)見的情況或數(shù)據(jù)。lKM28資訊網(wǎng)——每日最新資訊28at.com

造成的結(jié)果就是,面對更大規(guī)模或更復(fù)雜的問題時,其擴展能力將會受限。lKM28資訊網(wǎng)——每日最新資訊28at.com

lKM28資訊網(wǎng)——每日最新資訊28at.com

回顧 AI 過去 70 年的發(fā)展,他總結(jié)道:lKM28資訊網(wǎng)——每日最新資訊28at.com

AI 的進步與減少人為結(jié)構(gòu)、增加數(shù)據(jù)和計算能力息息相關(guān)。lKM28資訊網(wǎng)——每日最新資訊28at.com

與此同時,面對當(dāng)前人們對 scaling Law 的質(zhì)疑,即認為僅僅擴大計算規(guī)模可能被認為不夠科學(xué)或有趣。lKM28資訊網(wǎng)——每日最新資訊28at.com

Hyung Won 的看法是:lKM28資訊網(wǎng)——每日最新資訊28at.com

在擴展一個系統(tǒng)或模型的過程中,我們需要找出那些阻礙擴展的假設(shè)或限制條件。lKM28資訊網(wǎng)——每日最新資訊28at.com

舉個例子,在機器學(xué)習(xí)中,一個模型可能在小數(shù)據(jù)集上表現(xiàn)良好,但是當(dāng)數(shù)據(jù)量增加時,模型的性能可能會下降,或者訓(xùn)練時間會變得不可接受。lKM28資訊網(wǎng)——每日最新資訊28at.com

這時,可能需要改進算法,優(yōu)化數(shù)據(jù)處理流程,或者改變模型結(jié)構(gòu),以適應(yīng)更大的數(shù)據(jù)量和更復(fù)雜的任務(wù)。lKM28資訊網(wǎng)——每日最新資訊28at.com

也就是說,一旦識別出瓶頸,就需要通過創(chuàng)新和改進來替換這些假設(shè),以便模型或系統(tǒng)能夠在更大的規(guī)模上有效運行。lKM28資訊網(wǎng)——每日最新資訊28at.com

訓(xùn)練 VS 推理:效果相似,推理成本卻便宜 1000 億倍

除了上述,o1 另一核心作者 Noam Brown 也分享了一個觀點:lKM28資訊網(wǎng)——每日最新資訊28at.com

訓(xùn)練和推理對模型性能提升作用相似,但后者成本更低,便宜 1000 億倍。lKM28資訊網(wǎng)——每日最新資訊28at.com

lKM28資訊網(wǎng)——每日最新資訊28at.com

這意味著,在模型開發(fā)過程中,訓(xùn)練階段的資源消耗非常巨大,而實際使用模型進行推理時的成本則相對較低。lKM28資訊網(wǎng)——每日最新資訊28at.com

有人認為這凸顯了未來模型優(yōu)化的潛力。lKM28資訊網(wǎng)——每日最新資訊28at.com

lKM28資訊網(wǎng)——每日最新資訊28at.com

不過也有人對此持懷疑態(tài)度,認為二者壓根沒法拿來對比。lKM28資訊網(wǎng)——每日最新資訊28at.com

這是一個奇怪的比較。一個是邊際成本,另一個是固定成本。這就像說實體店比其中出售的商品貴 500000 倍。lKM28資訊網(wǎng)——每日最新資訊28at.com

lKM28資訊網(wǎng)——每日最新資訊28at.com

對此,你怎么看?lKM28資訊網(wǎng)——每日最新資訊28at.com

Hyung Won Chung 演講 PPT:lKM28資訊網(wǎng)——每日最新資訊28at.com

https://docs.google.com/presentation/d/1nnjXIuN2XDJENAOaKXI5srQscO3276svvP6JgivTv6w/edit#slide=id.g2d1161c9c52_0_20lKM28資訊網(wǎng)——每日最新資訊28at.com

參考鏈接:lKM28資訊網(wǎng)——每日最新資訊28at.com

[1]https://x.com/hwchung27/status/1836842717302943774lKM28資訊網(wǎng)——每日最新資訊28at.com

[2]https://x.com/tsarnick/status/1836215965912289306lKM28資訊網(wǎng)——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:一水lKM28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-7592-0.htmlo1 核心作者 MIT 演講:激勵 AI 自我學(xué)習(xí),比試圖教會 AI 每一項任務(wù)更重要

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 部分科技巨頭請求歐盟對 AI“從寬”監(jiān)管,避免數(shù)十億美元罰款風(fēng)險

下一篇: Redmi Note 14 Pro+豪配6200mAh大電池,還送電池保?

標(biāo)簽:
  • 熱門焦點
  • 歐盟人工智能法案:四種AI系統(tǒng)風(fēng)險類型的劃分及監(jiān)管措施

    作者:趙志東 蔡佳雯來源:區(qū)塊鏈日報該法案采用風(fēng)險分級的規(guī)制路徑,將人工智能系統(tǒng)的風(fēng)險劃分成不可接受的風(fēng)險、高風(fēng)險、有限風(fēng)險和輕微風(fēng)險四種類型,并針對不同類型施加了不同
  • “任何國產(chǎn)元宇宙都是假元宇宙”

    上個月,華語樂壇的優(yōu)質(zhì)偶像之一,DOTA2資深玩家林俊杰,在國外元宇宙產(chǎn)品分布式大陸(Decentraland)上買了三塊虛擬地產(chǎn),花了12.3萬美元(也就是人民幣接近80萬)。截至目
  • 2022年6款最佳的NFT稀有度查詢工具

    NFT正在風(fēng)靡全球,但擁有一個你自認為看起來很酷的 NFT 是不夠的,因為它還應(yīng)該是稀有的,稀有度會影響每個 NFT 的價值。因此,如果您打算投資 NFT,則需要使用 NFT 稀
  • 中國銀保監(jiān)管委提示:謹慎投資,勿做接盤俠

    中國銀保監(jiān)管委,發(fā)布一則風(fēng)險提示,內(nèi)容圍繞防范以“元宇宙”名義進行的非法集資風(fēng)險。原文如下:近期,一些不法分子蹭熱點,以“元宇宙投資項目”“元宇宙鏈游”等名
  • 借VR產(chǎn)業(yè)東風(fēng),江西搶灘布局“元宇宙”

    自2016年起就在VR上傾注了大量精力的江西省,迅速搭上了“元宇宙”。VR、AR等技術(shù)是通往元宇宙的關(guān)鍵接口,使人們可以在數(shù)字空間和物理空間自由穿梭。自2016年起
  • 小眾有趣NFT藝術(shù)作品欣賞(1)

    隨著NFT發(fā)展火熱,越來越多領(lǐng)域與NFT融合,NFT藝術(shù)在加密領(lǐng)域中占據(jù)了很大一部分。NFT藝術(shù)與傳統(tǒng)藝術(shù)有相似之處,也有完全不同的地方。NFT藝術(shù)與傳統(tǒng)藝術(shù)一樣,表現(xiàn)了
  • 與元宇宙美少女藝術(shù)家的對話

    我最近宣布了我自己的NFT項目,這是我已經(jīng)工作了幾個月的事情。由于我之前只是一個收藏家,擁有自己的項目真的給了我一個新的視角來看待這個領(lǐng)域。我一直歡迎人們
  • PayPal CEO 的加密語錄:加密貨幣將重新定義金融世界

    PayPal 近年來一直是加密行業(yè)的倡導(dǎo)者。這個本身擁有超過 3.5 億名活躍用戶的支付巨頭,已經(jīng)允許美國和英國的用戶交易或持有比特幣(BTC)、以太坊(ETH)、比特現(xiàn)金(BCH
  • 76億美金估值、2022年最具創(chuàng)新力公司,Dapper Labs如何做到?

    “元宇宙的開拓者”是我們針對元宇宙的發(fā)展而設(shè)立的專欄,主要面向那些深挖元宇宙產(chǎn)業(yè)或者在元宇宙進行“淘金”的從業(yè)者,分享這些企業(yè)或者創(chuàng)業(yè)者們的故事,以獨特
Top 主站蜘蛛池模板: 许昌县| 菏泽市| 嘉兴市| 南平市| 米泉市| 临西县| 宾川县| 积石山| 百色市| 长汀县| 永靖县| 马关县| 新野县| 湛江市| 赤城县| 绥宁县| 屯昌县| 循化| 洪洞县| 荣成市| 罗源县| 全州县| 阜康市| 伽师县| 皋兰县| 屯留县| 阳高县| 达拉特旗| 峨边| 察雅县| 章丘市| 尚志市| 翼城县| 个旧市| 郯城县| 石河子市| 台中市| 射阳县| 同德县| 怀远县| 绥德县|