當(dāng)前位置：首頁 > 元宇宙 > AI

o1 核心作者 MIT 演講：激勵 AI 自我學(xué)習(xí)，比試圖教會 AI 每一項任務(wù)更重要

來源：責(zé)編：時間：2024-09-24 16:21:10 109觀看

導(dǎo)讀 “o1 發(fā)布后，一個新的范式產(chǎn)生了”。其中關(guān)鍵，OpenAI 研究科學(xué)家、o1 核心貢獻者 Hyung Won Chung，剛剛就此分享了他在 MIT 的一次演講。演講主題為“Don’t teach. Incentivize（不要教，要激勵），核心觀點是：激勵 AI

“o1 發(fā)布后，一個新的范式產(chǎn)生了”。

其中關(guān)鍵，OpenAI 研究科學(xué)家、o1 核心貢獻者 Hyung Won Chung，剛剛就此分享了他在 MIT 的一次演講。

演講主題為“Don’t teach. Incentivize（不要教，要激勵），核心觀點是：

激勵 AI 自我學(xué)習(xí)比試圖教會 AI 每一項具體任務(wù)更重要

思維鏈作者 Jason Wei 迅速趕來打 call：

Hyung Won 識別新范式并完全放棄任何沉沒成本的能力給我留下了深刻的印象。

2022 年底，他意識到了強化學(xué)習(xí)的力量，并從那時起就一直在宣揚它。

在演講中，Hyung Won 還分享了：

技術(shù)人員過于關(guān)注問題解決本身，但更重要的是發(fā)現(xiàn)重大問題；

硬件進步呈指數(shù)級增長，軟件和算法需要跟上；

當(dāng)前存在一個誤區(qū)，即人們正在試圖讓 AI 學(xué)會像人類一樣思考；

“僅僅擴展規(guī)模”往往在長期內(nèi)更有效；

……

下面奉上演講主要內(nèi)容。

對待 AI：授人以魚不如授人以漁

先簡單介紹下 Hyung Won Chung，從公布的 o1 背后人員名單來看，他屬于推理研究的基礎(chǔ)貢獻者。

資料顯示，他是 MIT 博士（方向為可再生能源和能源系統(tǒng)），去年 2 月加入 OpenAI 擔(dān)任研究科學(xué)家。

加入 OpenAI 之前，他在 Google Brain 負責(zé)大語言模型的預(yù)訓(xùn)練、指令微調(diào)、推理、多語言、訓(xùn)練基礎(chǔ)設(shè)施等。

在谷歌工作期間，曾以一作身份，發(fā)表了關(guān)于模型微調(diào)的論文。（思維鏈作者 Jason Wei 同為一作）

回到正題。在 MIT 的演講中，他首先提到：

通往 AGI 唯一可行的方法是激勵模型，使通用技能出現(xiàn)。

在他看來，AI 領(lǐng)域正處于一次范式轉(zhuǎn)變，即從傳統(tǒng)的直接教授技能轉(zhuǎn)向激勵模型自我學(xué)習(xí)和發(fā)展通用技能。

理由也很直觀，AGI 所包含的技能太多了，無法一一學(xué)習(xí)。（主打以不變應(yīng)萬變）

具體咋激勵呢？？

他以下一個 token 預(yù)測為例，說明了這種弱激勵結(jié)構(gòu)如何通過大規(guī)模多任務(wù)學(xué)習(xí)，鼓勵模型學(xué)習(xí)解決數(shù)萬億個任務(wù)的通用技能，而不是單獨解決每個任務(wù)。

他觀察到：

如果嘗試以盡可能少的努力解決數(shù)十個任務(wù)，那么單獨模式識別每個任務(wù)可能是最簡單的；

如果嘗試解決數(shù)萬億個任務(wù)，通過學(xué)習(xí)通用技能（例如語言、推理等）可能會更容易解決它們。

對此他打了個比方，“授人以魚不如授人以漁”，用一種基于激勵的方法來解決任務(wù)。

Teach him the taste of fish and make him hungry.（教 AI 嘗嘗魚的味道，讓他餓一下）

然后 AI 就會自己出去釣魚，在此過程中，AI 將學(xué)習(xí)其他技能，例如耐心、學(xué)習(xí)閱讀天氣、了解魚等。

其中一些技能是通用的，可以應(yīng)用于其他任務(wù)。

面對這一“循循善誘”的過程，也許有人認(rèn)為還不如直接教來得快。

但在 Hyung Won 看來：

對于人類來說確實如此，但是對于機器來說，我們可以提供更多的計算來縮短時間。

換句話說，面對有限的時間，人類也許還要在專家 or 通才之間做選擇，但對于機器來說，算力就能出奇跡。

他又舉例說明，《龍珠》里有一個設(shè)定：在特殊訓(xùn)練場所，角色能在外界感覺只是一天的時間內(nèi)獲得一年的修煉效果。

對于機器來說，這個感知差值要高得多。

因此，具有更多計算能力的強大通才通常比專家更擅長特殊領(lǐng)域。

原因也眾所周知，大型通用模型能夠通過大規(guī)模的訓(xùn)練和學(xué)習(xí)，快速適應(yīng)和掌握新的任務(wù)和領(lǐng)域，而不需要從頭開始訓(xùn)練。

他還補充道，數(shù)據(jù)顯示計算能力大約每 5 年提高 10 倍。

總結(jié)下來，Hyung Won 認(rèn)為核心在于：

模型的可擴展性

算力對加速模型進化至關(guān)重要

此外，他還認(rèn)為當(dāng)前存在一個誤區(qū)，即人們正在試圖讓 AI 學(xué)會像人類一樣思考。

但問題是，我們并不知道自己在神經(jīng)元層面是如何思考的。

機器應(yīng)該有更多的自主性來選擇如何學(xué)習(xí)，而不是被限制在人類理解的數(shù)學(xué)語言和結(jié)構(gòu)中。

在他看來，一個系統(tǒng)或算法過于依賴人為設(shè)定的規(guī)則和結(jié)構(gòu)，那么它可能難以適應(yīng)新的、未預(yù)見的情況或數(shù)據(jù)。

造成的結(jié)果就是，面對更大規(guī)模或更復(fù)雜的問題時，其擴展能力將會受限。

回顧 AI 過去 70 年的發(fā)展，他總結(jié)道：

AI 的進步與減少人為結(jié)構(gòu)、增加數(shù)據(jù)和計算能力息息相關(guān)。

與此同時，面對當(dāng)前人們對 scaling Law 的質(zhì)疑，即認(rèn)為僅僅擴大計算規(guī)模可能被認(rèn)為不夠科學(xué)或有趣。

Hyung Won 的看法是：

在擴展一個系統(tǒng)或模型的過程中，我們需要找出那些阻礙擴展的假設(shè)或限制條件。

舉個例子，在機器學(xué)習(xí)中，一個模型可能在小數(shù)據(jù)集上表現(xiàn)良好，但是當(dāng)數(shù)據(jù)量增加時，模型的性能可能會下降，或者訓(xùn)練時間會變得不可接受。

這時，可能需要改進算法，優(yōu)化數(shù)據(jù)處理流程，或者改變模型結(jié)構(gòu)，以適應(yīng)更大的數(shù)據(jù)量和更復(fù)雜的任務(wù)。

也就是說，一旦識別出瓶頸，就需要通過創(chuàng)新和改進來替換這些假設(shè)，以便模型或系統(tǒng)能夠在更大的規(guī)模上有效運行。

訓(xùn)練 VS 推理：效果相似，推理成本卻便宜 1000 億倍

除了上述，o1 另一核心作者 Noam Brown 也分享了一個觀點：

訓(xùn)練和推理對模型性能提升作用相似，但后者成本更低，便宜 1000 億倍。

這意味著，在模型開發(fā)過程中，訓(xùn)練階段的資源消耗非常巨大，而實際使用模型進行推理時的成本則相對較低。

有人認(rèn)為這凸顯了未來模型優(yōu)化的潛力。

不過也有人對此持懷疑態(tài)度，認(rèn)為二者壓根沒法拿來對比。

這是一個奇怪的比較。一個是邊際成本，另一個是固定成本。這就像說實體店比其中出售的商品貴 500000 倍。

對此，你怎么看？

Hyung Won Chung 演講 PPT：

https://docs.google.com/presentation/d/1nnjXIuN2XDJENAOaKXI5srQscO3276svvP6JgivTv6w/edit#slide=id.g2d1161c9c52_0_20

參考鏈接：

[1]https://x.com/hwchung27/status/1836842717302943774

[2]https://x.com/tsarnick/status/1836215965912289306

本文來自微信公眾號：量子位（ID：QbitAI），作者：一水

本文鏈接：http://www.www897cc.com/showinfo-45-7592-0.htmlo1 核心作者 MIT 演講：激勵 AI 自我學(xué)習(xí)，比試圖教會 AI 每一項任務(wù)更重要

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：部分科技巨頭請求歐盟對 AI“從寬”監(jiān)管，避免數(shù)十億美元罰款風(fēng)險

下一篇： Redmi Note 14 Pro+豪配6200mAh大電池，還送電池保？

標(biāo)簽：

熱門焦點

元宇宙是投資中國的第五次重大機遇

作者為凱思博投資董事長導(dǎo)語：投資邏輯要來自于人性在社會發(fā)展過程中的普遍規(guī)律，由第一性原理出發(fā)找出重大的投資機會來。1978年的改革開放到今天，中國總共經(jīng)歷了
英特爾首款加密芯片將于今年上市｜國際動態(tài)

No.1 英特爾首款加密芯片將于今年上市2月13日消息，英特爾首款名為“區(qū)塊鏈加速器”的加密芯片將于今年晚些時候上市。目前，已經(jīng)有兩家公司預(yù)訂了這項技術(shù)，分別是G
8個最適合藝術(shù)家發(fā)行NFT的交易市場

近年來，加密風(fēng)靡全球。加密圈最令人興奮的方面之一是它能夠用于創(chuàng)建稱為NFT 的數(shù)字資產(chǎn)。從 CyberKitties 到 Cyber Galleries，NFT 已成為藝術(shù)家和藝術(shù)鑒賞家的
從NFT頂級公鏈到Web3.0基礎(chǔ)設(shè)施：帶你了解不一樣的Flow

對于大部分年輕人來說，剛剛過去的春節(jié)有一個詞語突然成為了品牌宣傳的流行語，作為從NFT中衍生出來的“數(shù)字藏品”一時間獲得了不少品牌青睞，他們紛紛推出自己的數(shù)
Meta展示AI系統(tǒng)Builder Bot；《Pistol Whip》增加派對模式

今日熱點：Meta展示AI系統(tǒng)Builder Bot；招聘信息顯示Meta正在探索具有蜂窩連接功能的VR/AR頭顯；英國VR工作室Coatsink Games正在為PSVR 2開發(fā)新游戲；VR節(jié)奏射擊游戲
小眾有趣NFT藝術(shù)作品欣賞（1）

隨著NFT發(fā)展火熱，越來越多領(lǐng)域與NFT融合，NFT藝術(shù)在加密領(lǐng)域中占據(jù)了很大一部分。NFT藝術(shù)與傳統(tǒng)藝術(shù)有相似之處，也有完全不同的地方。NFT藝術(shù)與傳統(tǒng)藝術(shù)一樣，表現(xiàn)了
頭頂光環(huán)無數(shù)卻估值極低，以太坊這位&——quot;最強殺手&——quot;有望涅槃重生？

作者：五火球教主提起Dfinity（ICP），你的第一感覺可能與我一樣，這是一個讓人十分糾結(jié)的項目。之所以糾結(jié)，一方面他的團隊陣容強大，各種來自前英特爾、IBM、coinbase、fa
數(shù)字經(jīng)濟、數(shù)據(jù)要素與數(shù)字治理

深入理解數(shù)字經(jīng)濟與數(shù)據(jù)要素，有利于更準(zhǔn)確理解和把握數(shù)字治理的基本規(guī)律，構(gòu)建面向未來的健康的數(shù)字治理體系，也才能更好地理解元宇宙的治理框架。一、數(shù)字經(jīng)濟
NFT高玩必備：NFT分析工具大盤點

NFT市場的火熱讓越來越多的投資者投身其中，但當(dāng)前的 NFT 生態(tài)系統(tǒng)存在幾個問題卻困擾了大多數(shù)人，如難以準(zhǔn)確評估 NFT 項目的資產(chǎn)價格、缺乏 NFT 市場動態(tài)信息、

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

o1 核心作者 MIT 演講：激勵 AI 自我學(xué)習(xí)，比試圖教會 AI 每一項任務(wù)更重要

元宇宙是投資中國的第五次重大機遇

英特爾首款加密芯片將于今年上市｜國際動態(tài)

8個最適合藝術(shù)家發(fā)行NFT的交易市場

從NFT頂級公鏈到Web3.0基礎(chǔ)設(shè)施：帶你了解不一樣的Flow

Meta展示AI系統(tǒng)Builder Bot；《Pistol Whip》增加派對模式

小眾有趣NFT藝術(shù)作品欣賞（1）

頭頂光環(huán)無數(shù)卻估值極低，以太坊這位&——quot;最強殺手&——quot;有望涅槃重生？

數(shù)字經(jīng)濟、數(shù)據(jù)要素與數(shù)字治理

NFT高玩必備：NFT分析工具大盤點

最新推薦

數(shù)字虛擬人23年最新變化！

數(shù)字人的AB面：在元宇宙中過氣，在AIGC中重生

B端難做：留給魔琺科技的時間不多了

智能人機交互技術(shù)的春晚大考

以太坊面臨來自Fantom的巨大挑戰(zhàn)

售出6930萬美元的NFT已經(jīng)過去一年，NFT如今是否已成為主流？

猜你喜歡

熱門推薦

相關(guān)資訊