日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁(yè) > 元宇宙 > AI

大模型增速遠(yuǎn)超摩爾定律!MIT 最新研究:人類快要喂不飽 AI 了

來(lái)源: 責(zé)編: 時(shí)間:2024-03-20 17:22:58 198觀看
導(dǎo)讀 【新智元導(dǎo)讀】近日,來(lái)自 MIT (麻省理工學(xué)院)的研究人員發(fā)表了關(guān)于大模型能力增速的研究,結(jié)果表明,LLM 的能力大約每 8 個(gè)月就會(huì)翻一倍,速度遠(yuǎn)超摩爾定律!硬件馬上就要跟不上啦!我們?nèi)祟惪赡芤B(yǎng)不起 AI 了!近日,來(lái)自 M

【新智元導(dǎo)讀】近日,來(lái)自 MIT (麻省理工學(xué)院)的研究人員發(fā)表了關(guān)于大模型能力增速的研究,結(jié)果表明,LLM 的能力大約每 8 個(gè)月就會(huì)翻一倍,速度遠(yuǎn)超摩爾定律!硬件馬上就要跟不上啦!u2R28資訊網(wǎng)——每日最新資訊28at.com

我們?nèi)祟惪赡芤B(yǎng)不起 AI 了!u2R28資訊網(wǎng)——每日最新資訊28at.com

近日,來(lái)自 MIT FutureTech 的研究人員發(fā)表了一項(xiàng)關(guān)于大模型能力增長(zhǎng)速度的研究,結(jié)果表明:LLM 的能力大約每 8 個(gè)月就會(huì)翻一倍,速度遠(yuǎn)超摩爾定律!u2R28資訊網(wǎng)——每日最新資訊28at.com

u2R28資訊網(wǎng)——每日最新資訊28at.com

論文地址:https://arxiv.org/pdf/2403.05812.pdfu2R28資訊網(wǎng)——每日最新資訊28at.com

LLM 的能力提升大部分來(lái)自于算力,而摩爾定律代表著硬件算力的發(fā)展,u2R28資訊網(wǎng)——每日最新資訊28at.com

—— 也就是說(shuō),隨著時(shí)間的推移,終有一天我們將無(wú)法滿足 LLM 所需要的算力!u2R28資訊網(wǎng)——每日最新資訊28at.com

如果那個(gè)時(shí)候 AI 有了意識(shí),不知道會(huì)不會(huì)自己想辦法找飯吃?u2R28資訊網(wǎng)——每日最新資訊28at.com

u2R28資訊網(wǎng)——每日最新資訊28at.com

上圖表示不同領(lǐng)域的算法改進(jìn)對(duì)有效計(jì)算翻倍的估計(jì)。藍(lán)點(diǎn)表示中心估計(jì)值或范圍;藍(lán)色三角形對(duì)應(yīng)于不同大小(范圍從 1K 到 1B)的問(wèn)題的倍增時(shí)間;紫色虛線對(duì)應(yīng)于摩爾定律表示的 2 年倍增時(shí)間。u2R28資訊網(wǎng)——每日最新資訊28at.com

摩爾定律和比爾蓋茨

摩爾定律(Moore's law)是一種經(jīng)驗(yàn)或者觀察結(jié)果,表示集成電路(IC)中的晶體管數(shù)量大約每?jī)赡攴环?span style="display:none">u2R28資訊網(wǎng)——每日最新資訊28at.com

1965 年,仙童半導(dǎo)體(Fairchild Semiconductor)和英特爾的聯(lián)合創(chuàng)始人 Gordon Moore 假設(shè)集成電路的組件數(shù)量每年翻一番,并預(yù)測(cè)這種增長(zhǎng)率將至少再持續(xù)十年。u2R28資訊網(wǎng)——每日最新資訊28at.com

u2R28資訊網(wǎng)——每日最新資訊28at.com

1975 年,展望下一個(gè)十年,他將預(yù)測(cè)修改為每?jī)赡攴环瑥?fù)合年增長(zhǎng)率(CAGR)為 41%。u2R28資訊網(wǎng)——每日最新資訊28at.com

雖然 Moore 沒(méi)有使用經(jīng)驗(yàn)證據(jù)來(lái)預(yù)測(cè)歷史趨勢(shì)將繼續(xù)下去,但他的預(yù)測(cè)自 1975 年以來(lái)一直成立,所以也就成了“定律”。u2R28資訊網(wǎng)——每日最新資訊28at.com

因?yàn)槟柖杀话雽?dǎo)體行業(yè)用于指導(dǎo)長(zhǎng)期規(guī)劃和設(shè)定研發(fā)目標(biāo),所以在某種程度上,成了一種自我實(shí)現(xiàn)預(yù)言。u2R28資訊網(wǎng)——每日最新資訊28at.com

數(shù)字電子技術(shù)的進(jìn)步,例如微處理器價(jià)格的降低、內(nèi)存容量(RAM 和閃存)的增加、傳感器的改進(jìn),甚至數(shù)碼相機(jī)中像素的數(shù)量和大小,都與摩爾定律密切相關(guān)。u2R28資訊網(wǎng)——每日最新資訊28at.com

數(shù)字電子的這些持續(xù)變化一直是技術(shù)和社會(huì)變革、生產(chǎn)力和經(jīng)濟(jì)增長(zhǎng)的驅(qū)動(dòng)力。u2R28資訊網(wǎng)——每日最新資訊28at.com

不過(guò)光靠自我激勵(lì)肯定是不行的,雖然行業(yè)專家沒(méi)法對(duì)摩爾定律能持續(xù)多久達(dá)成共識(shí),但根據(jù)微處理器架構(gòu)師的報(bào)告,自 2010 年左右以來(lái),整個(gè)行業(yè)的半導(dǎo)體發(fā)展速度已經(jīng)放緩,略低于摩爾定律預(yù)測(cè)的速度。u2R28資訊網(wǎng)——每日最新資訊28at.com

下面是維基百科給出的晶體管數(shù)量增長(zhǎng)趨勢(shì)圖:u2R28資訊網(wǎng)——每日最新資訊28at.com

u2R28資訊網(wǎng)——每日最新資訊28at.com

到了 2022 年 9 月,英偉達(dá)首席執(zhí)行官黃仁勛直言“摩爾定律已死”,不過(guò)英特爾首席執(zhí)行官 Pat Gelsinger 則表示不同意。u2R28資訊網(wǎng)——每日最新資訊28at.com

u2R28資訊網(wǎng)——每日最新資訊28at.com

從下圖我們可以看出,英特爾還在努力用各種技術(shù)和方法為自己老祖宗提出的定律續(xù)命,并表示,問(wèn)題不大,你看我們還是直線沒(méi)有彎。u2R28資訊網(wǎng)——每日最新資訊28at.com

u2R28資訊網(wǎng)——每日最新資訊28at.com

Andy and Bill's Lawu2R28資訊網(wǎng)——每日最新資訊28at.com

關(guān)于算力的增長(zhǎng),有一句話是這樣說(shuō)的:“安迪給的,比爾都拿走(What Andy giveth, Bill taketh away)”。u2R28資訊網(wǎng)——每日最新資訊28at.com

u2R28資訊網(wǎng)——每日最新資訊28at.com

這反映了當(dāng)時(shí)的英特爾首席執(zhí)行官 Andy Grove 每次向市場(chǎng)推出新芯片時(shí),微軟的 CEO 比爾?蓋茨(Bill Gates)都會(huì)通過(guò)升級(jí)軟件來(lái)吃掉芯片提升的性能。u2R28資訊網(wǎng)——每日最新資訊28at.com

—— 而以后吃掉芯片算力的就是大模型了,而且根據(jù) MIT 的這項(xiàng)研究,大模型以后根本吃不飽。u2R28資訊網(wǎng)——每日最新資訊28at.com

研究方法

如何定義 LLM 的能力提升?首先,研究人員對(duì)模型的能力進(jìn)行了量化。u2R28資訊網(wǎng)——每日最新資訊28at.com

基本的思想就是:如果一種算法或架構(gòu)在基準(zhǔn)測(cè)試中以一半的計(jì)算量獲得相同的結(jié)果,那么就可以說(shuō),它比另一種算法或架構(gòu)好兩倍。u2R28資訊網(wǎng)——每日最新資訊28at.com

有了比賽規(guī)則之后,研究人員招募了 200 多個(gè)語(yǔ)言模型來(lái)參加比賽,同時(shí)為了確保公平公正,比賽所用的數(shù)據(jù)集是 WikiText-103 和 WikiText-2 以及 Penn Treebank,代表了多年來(lái)用于評(píng)估語(yǔ)言模型的高質(zhì)量文本數(shù)據(jù)。u2R28資訊網(wǎng)——每日最新資訊28at.com

專注于語(yǔ)言模型開(kāi)發(fā)過(guò)程中使用的既定基準(zhǔn),為比較新舊模型提供了連續(xù)性。u2R28資訊網(wǎng)——每日最新資訊28at.com

需要注意的是,這里只量化了預(yù)訓(xùn)練模型的能力,沒(méi)有考慮一些“訓(xùn)練后增強(qiáng)”手段,比如思維鏈提示(COT)、微調(diào)技術(shù)的改進(jìn)或者集成搜索的方法(RAG)。u2R28資訊網(wǎng)——每日最新資訊28at.com

模型定義u2R28資訊網(wǎng)——每日最新資訊28at.com

研究人員通過(guò)擬合一個(gè)滿足兩個(gè)關(guān)鍵目標(biāo)的模型來(lái)評(píng)估其性能水平:u2R28資訊網(wǎng)——每日最新資訊28at.com

(1)模型必須與之前關(guān)于神經(jīng)標(biāo)度定律的工作大致一致;u2R28資訊網(wǎng)——每日最新資訊28at.com

(2)模型應(yīng)允許分解提高性能的主要因素,例如提高模型中數(shù)據(jù)或自由參數(shù)的使用效率。u2R28資訊網(wǎng)——每日最新資訊28at.com

這里采用的核心方法類似于之前提出的縮放定律,將 Dense Transformer 的訓(xùn)練損失 L 與其參數(shù) N 的數(shù)量和訓(xùn)練數(shù)據(jù)集大小 D 相關(guān)聯(lián):u2R28資訊網(wǎng)——每日最新資訊28at.com

u2R28資訊網(wǎng)——每日最新資訊28at.com

其中 L 是數(shù)據(jù)集上每個(gè) token 的交叉熵?fù)p失,E、A、B、α 和 β 是常數(shù)。E 表示數(shù)據(jù)集的“不可減少損失”,而第二項(xiàng)和第三項(xiàng)分別代表由于模型或數(shù)據(jù)集的有限性而導(dǎo)致的錯(cuò)誤。u2R28資訊網(wǎng)——每日最新資訊28at.com

因?yàn)殡S著時(shí)間的推移,實(shí)現(xiàn)相同性能水平所需的資源(N 和 D)會(huì)減少。為了衡量這一點(diǎn),作者在模型中引入了“有效數(shù)據(jù)”和“有效模型大小”的概念:u2R28資訊網(wǎng)——每日最新資訊28at.com

u2R28資訊網(wǎng)——每日最新資訊28at.com

其中的 Y 表示年份,前面的系數(shù)表示進(jìn)展率,代入上面的縮放定律,可以得到:u2R28資訊網(wǎng)——每日最新資訊28at.com

u2R28資訊網(wǎng)——每日最新資訊28at.com

通過(guò)這個(gè)公式,就可以估計(jì)隨著時(shí)間的推移,實(shí)現(xiàn)相同性能水平所需的更少資源(N 和 D)的速度。u2R28資訊網(wǎng)——每日最新資訊28at.com

數(shù)據(jù)集u2R28資訊網(wǎng)——每日最新資訊28at.com

參與測(cè)評(píng)的包含 400 多個(gè)在 WikiText-103(WT103)、WikiText-2(WT2)和 Penn Treebank(PTB)上評(píng)估的語(yǔ)言模型,其中約 60% 可用于分析。u2R28資訊網(wǎng)——每日最新資訊28at.com

研究人員首先從大約 200 篇不同的論文中檢索了相關(guān)的評(píng)估信息,又額外使用框架執(zhí)行了 25 個(gè)模型的評(píng)估。u2R28資訊網(wǎng)——每日最新資訊28at.com

然后,考慮數(shù)據(jù)的子集,其中包含擬合模型結(jié)構(gòu)所需的信息:token 級(jí)測(cè)試?yán)Щ蠖龋Q定交叉熵?fù)p失)、發(fā)布日期、模型參數(shù)數(shù)量和訓(xùn)練數(shù)據(jù)集大小,最終篩選出 231 個(gè)模型供分析。u2R28資訊網(wǎng)——每日最新資訊28at.com

u2R28資訊網(wǎng)——每日最新資訊28at.com

這 231 個(gè)語(yǔ)言模型,跨越了超過(guò) 8 個(gè)數(shù)量級(jí)的計(jì)算,上圖中的每個(gè)形狀代表一個(gè)模型。u2R28資訊網(wǎng)——每日最新資訊28at.com

形狀的大小與訓(xùn)練期間使用的計(jì)算成正比,困惑度評(píng)估來(lái)自于現(xiàn)有文獻(xiàn)以及作者自己的評(píng)估測(cè)試。u2R28資訊網(wǎng)——每日最新資訊28at.com

在某些情況下,會(huì)從同一篇論文中檢索到多個(gè)模型,為了避免自相關(guān)帶來(lái)的問(wèn)題,這里每篇論文最多只選擇三個(gè)模型。u2R28資訊網(wǎng)——每日最新資訊28at.com

實(shí)證結(jié)果u2R28資訊網(wǎng)——每日最新資訊28at.com

根據(jù)縮放定律,以及作者引入的有效數(shù)據(jù)、有效參數(shù)和有效計(jì)算的定義來(lái)進(jìn)行評(píng)估,結(jié)果表明:有效計(jì)算的中位倍增時(shí)間為 8.4 個(gè)月,95% 置信區(qū)間為 4.5 至 14.3 個(gè)月。u2R28資訊網(wǎng)——每日最新資訊28at.com

u2R28資訊網(wǎng)——每日最新資訊28at.com

上圖表示通過(guò)交叉驗(yàn)證選擇的模型的算法進(jìn)度估計(jì)值。圖 a 顯示了倍增時(shí)間的匯總估計(jì)值,圖 b 顯示了從左到右按交叉驗(yàn)證性能遞減(MSE 測(cè)試損耗增加)排序。u2R28資訊網(wǎng)——每日最新資訊28at.com

u2R28資訊網(wǎng)——每日最新資訊28at.com

上圖比較了 2016 年至 2020 年前后的算法有效計(jì)算的估計(jì)倍增時(shí)間。相對(duì)于前期,后期的倍增時(shí)間較短,表明在該截止年之后算法進(jìn)步速度加快。u2R28資訊網(wǎng)——每日最新資訊28at.com

參考資料u2R28資訊網(wǎng)——每日最新資訊28at.com

https://twitter.com/emollick/status/1767717692608217407u2R28資訊網(wǎng)——每日最新資訊28at.com

本文來(lái)自微信公眾號(hào):新智元 (ID:AI_era)u2R28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-3634-0.html大模型增速遠(yuǎn)超摩爾定律!MIT 最新研究:人類快要喂不飽 AI 了

聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: ASCII 字符畫(huà)成注入工具,研究人員發(fā)現(xiàn)大模型“越獄”新手段

下一篇: 華為ADS稱王?何小鵬回應(yīng):競(jìng)爭(zhēng)才剛開(kāi)始!

標(biāo)簽:
  • 熱門焦點(diǎn)
  • 內(nèi)容行業(yè)大變天,爆款全靠AI?

    出品 | 微果醬(wjam123456)作者 | 陳出木題圖 | 文心一格 AI的發(fā)展之快出乎所有人的預(yù)料,似乎一夜之間便呼嘯而來(lái)。無(wú)論是資本的風(fēng)向標(biāo),抑或是生活工作的輔助、流量口,還是茶余飯
  • 虛擬人再升級(jí),企業(yè)可以解放雙手了?

    來(lái)源:伯虎財(cái)經(jīng)今天想跟大家來(lái)嘮嘮AI,其實(shí)聊到這個(gè)話題很多人都不陌生了。在ChatGPT和AIGC大熱背后,還有一位低調(diào)的“大佬”——虛擬人。比如咱們熟知的虛
  • 關(guān)于ChatGPT的10點(diǎn)思考

    作者:晏濤三壽近日ChatGPT又有大動(dòng)作。5月19日,OpenAI在官網(wǎng)宣布正式發(fā)布App應(yīng)用,并登錄蘋(píng)果應(yīng)用商店。與網(wǎng)頁(yè)版的聊天機(jī)器人相比,iOS應(yīng)用程序的發(fā)布有望讓更多人接觸到ChatGPT
  • 汽車元宇宙,是概念還是未來(lái)?

    作者|何文 元宇宙是未來(lái)趨勢(shì)已經(jīng)無(wú)需驗(yàn)證。 從概念上來(lái)看,元宇宙是兩種存在多年的概念的融合:虛擬現(xiàn)實(shí)和數(shù)字第二人生。這也就意味著,元宇宙所代表的是一種新的數(shù)
  • 2022開(kāi)年最熱投資賽道竟是虛擬人,背后隱藏了什么商業(yè)價(jià)值?

    在剛剛結(jié)束不久的2021年江蘇衛(wèi)視跨年演唱會(huì)上,虛擬鄧麗君與歌手周深同臺(tái)聯(lián)唱,實(shí)現(xiàn)了跨時(shí)代合作,而這還不只是“鄧麗君”,嗶哩嗶哩、東方衛(wèi)視等多家跨年晚會(huì)都出現(xiàn)
  • Meta證實(shí)Quest 2無(wú)法實(shí)現(xiàn)全身追蹤,未來(lái)將為虛擬化身配備“假腿”

    上周,外媒UploadVR在Quest 2開(kāi)發(fā)者文檔中發(fā)現(xiàn)了從未被公布過(guò)的“身體追蹤支持”選項(xiàng),暗示Meta VR頭顯或支持全身追蹤。而在最近的Instagram問(wèn)答環(huán)節(jié)中,Meta Reali
  • 從英式拍到荷蘭拍,看傳統(tǒng)金融拍賣玩法如何玩轉(zhuǎn)NFT市場(chǎng)交易

    作者:魯拍賣是一種從古至今的商業(yè)活動(dòng)。從古代的典當(dāng)?shù)浆F(xiàn)代的拍賣市場(chǎng)、我們熟知的拍賣行,以及知名街頭藝術(shù)家Bansky名畫(huà)拍賣成功后,竟自毀粉碎,現(xiàn)價(jià)值又翻倍的拍
  • 3月份值得關(guān)注的5個(gè)NFT項(xiàng)目

    2021年,我們見(jiàn)證了一個(gè)新的創(chuàng)造者經(jīng)濟(jì)的誕生。它是在區(qū)塊鏈上誕生的。自從NFT成為流行文化的中心舞臺(tái)以來(lái),有些藝術(shù)家們已經(jīng)成為了NFT的超級(jí)明星,在幾個(gè)月的時(shí)間
  • 這場(chǎng)虛擬發(fā)布會(huì),當(dāng)面“造假”!

    英偉達(dá)去年4月份那場(chǎng)發(fā)布會(huì),你曾看出什么不對(duì)勁的地方嗎?你品,你細(xì)品——在計(jì)算機(jī)圖形學(xué)頂會(huì)SIGGRAPH 2021上,英偉達(dá)通過(guò)一部紀(jì)錄片自曝:那場(chǎng)發(fā)布會(huì)內(nèi)藏玄機(jī)~你看到
Top 主站蜘蛛池模板: 衡东县| 盈江县| 新干县| 威信县| 天门市| 灵丘县| 海兴县| 扶余县| 伊川县| 大名县| 深州市| 津市市| 弋阳县| 同心县| 融水| 开江县| 交口县| 苏州市| 尼木县| 抚顺县| 东至县| 白河县| 松桃| 霍林郭勒市| 丰原市| 北安市| 光泽县| 济南市| 郑州市| 利津县| 巴彦淖尔市| 恭城| 伊宁县| 兴海县| 洛浦县| 叙永县| 溧阳市| 南阳市| 黑河市| 临沭县| 温泉县|