當(dāng)前位置：首頁 > 元宇宙 > AI

手機(jī)流暢運(yùn)行 470 億大模型：上交大發(fā)布 LLM 手機(jī)推理框架 PowerInfer-2，提速 29 倍

來源：責(zé)編：時間：2024-06-16 17:44:47 213觀看

導(dǎo)讀蘋果一出手，在手機(jī)等移動設(shè)備上部署大模型不可避免地成為行業(yè)關(guān)注焦點(diǎn)。然而，目前在移動設(shè)備上運(yùn)行的模型相對較小（蘋果的是 3B，谷歌的是 2B），并且消耗大量內(nèi)存，這在很大程度上限制了其應(yīng)用場景。即使是蘋果，目前也需

蘋果一出手，在手機(jī)等移動設(shè)備上部署大模型不可避免地成為行業(yè)關(guān)注焦點(diǎn)。

然而，目前在移動設(shè)備上運(yùn)行的模型相對較小（蘋果的是 3B，谷歌的是 2B），并且消耗大量內(nèi)存，這在很大程度上限制了其應(yīng)用場景。

即使是蘋果，目前也需要與 OpenAI 合作，通過將云端 GPT-4o 大模型嵌入到操作系統(tǒng)中來提供能力更強(qiáng)的服務(wù)。

這樣一來，蘋果的混合方案引起了非常多關(guān)于數(shù)據(jù)隱私的討論和爭議，甚至馬斯克都下場討論。

如果蘋果在操作系統(tǒng)層面集成 OpenAI，那么蘋果設(shè)備將被禁止在我的公司使用。這是不可接受的安全違規(guī)行為。

既然終端側(cè)本地部署大模型的方案既讓手機(jī)用戶享受到 AI 強(qiáng)大的智能，又能保護(hù)好自己的隱私安全，為什么蘋果還要冒著侵犯隱私的風(fēng)險選擇聯(lián)手 OpenAI 采用云端大模型呢？主要挑戰(zhàn)有兩點(diǎn)：

手機(jī)內(nèi)存不夠大：按照大模型的 Scaling Law 法則，模型參數(shù)越大，能力對應(yīng)的也就越強(qiáng)，這就意味著能力更強(qiáng)的模型對內(nèi)存的要求越高。

手機(jī)算力不夠強(qiáng)：即使勉強(qiáng)把通過量化等手段把模型塞進(jìn)手機(jī)了，推理速度也慢，適合的應(yīng)用場景也就非常有限了。

為了解決上述挑戰(zhàn)，上海交大 IPADS 實驗室推出了面向手機(jī)的大模型推理引擎（目前論文已在 arxiv 公開）：PowerInfer-2.0。

PowerInfer-2.0 能夠在內(nèi)存有限的智能手機(jī)上實現(xiàn)快速推理，讓 Mixtral 47B 模型在手機(jī)上達(dá)到 11 tokens/s 的速度。

與熱門開源推理框架 llama.cpp 相比，PowerInfer-2.0 的推理加速比平均達(dá)到 25 倍，最高達(dá) 29 倍。

為了充分釋放出 PowerInfer-2.0 框架的最大潛力，上海交大團(tuán)隊還提出了配套的大模型優(yōu)化技術(shù) Turbo Sparse，相關(guān)論文近期也上傳了 arxiv，并且已經(jīng)在業(yè)內(nèi)引起關(guān)注。

另外值得一提的是，去年底上海交大團(tuán)隊提出了針對 PC 場景的快速推理框架 PowerInfer-1.0，在 4090 等消費(fèi)級顯卡的硬件上，實現(xiàn)了比 llama.cpp 高達(dá) 11 倍的推理加速，曾連續(xù)三天登頂 GitHub 趨勢榜，5 天獲得了 5k 的 GitHub star，目前已達(dá)到 7.1k star。

相比 PC，手機(jī)的內(nèi)存和算力受到的約束更多，那么這次的 PowerInfer-2.0 是如何針對手機(jī)場景加速大模型推理呢？

動態(tài)神經(jīng)元緩存

首先，針對手機(jī)運(yùn)行內(nèi)存（DRAM）不足的問題，PowerInfer-2.0 利用了稀疏模型推理時的一個特點(diǎn)：每次只需要激活一小部分神經(jīng)元，即“稀疏激活”。沒有被激活的神經(jīng)元即使不參與 AI 模型的推理計算，也不會對模型的輸出質(zhì)量造成影響。

稀疏激活為降低模型推理的內(nèi)存使用創(chuàng)造了新的機(jī)會。為了充分利用稀疏激活的特性，PowerInfer-2.0 把整個神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元分成了冷、熱兩種，并在內(nèi)存中基于 LRU 策略維護(hù)了一個神經(jīng)元緩存池。

近期頻繁激活的”熱神經(jīng)元”被放置在運(yùn)行內(nèi)存中，而“冷神經(jīng)元”只有在被預(yù)測激活的時候，才會被拉進(jìn)內(nèi)存，大幅降低了內(nèi)存使用量。

其實冷熱神經(jīng)元分類，是繼承自 PowerInfer-1.0 已有的做法。

而在去年 12 月，蘋果在面向端側(cè)的大語言模型推理方案“LLM in a Flash”中提出了和神經(jīng)元緩存類似的“滑動窗口”技術(shù)。但這些工作主要針對的都是 PC 環(huán)境，直接遷移到手機(jī)環(huán)境，還會遇到新的難題。

首先手機(jī)平臺的硬件條件遠(yuǎn)不及 PC，無論是算力、內(nèi)存總量還是存儲帶寬，都與 PC 存在較大差距。

其次，手機(jī)硬件平臺存在 CPU、GPU、NPU 三種異構(gòu)的計算單元，十分復(fù)雜。各大硬件平臺宣發(fā)時都會強(qiáng)調(diào)一個總算力，實際上是把 CPU、GPU、NPU 提供的算力加起來。然而真正跑起大模型來，能不能高效利用各種異構(gòu)算力還是個問題。

以神經(jīng)元簇為粒度的異構(gòu)計算

針對這一點(diǎn)，PowerInfer-2.0 進(jìn)一步把粗粒度的大矩陣計算分解成細(xì)粒度的“神經(jīng)元簇”。

每個神經(jīng)元簇可以包含若干個參與計算的神經(jīng)元。對于不同的處理器，會根據(jù)處理器的特性來動態(tài)決定劃分出來的神經(jīng)元簇的大小。

例如，NPU 擅長于做大矩陣的計算，那么可以把所有神經(jīng)元合并成一個大的神經(jīng)元簇，一起交給 NPU 計算，這樣就可以充分利用 NPU 的計算能力。而在使用 CPU 時，可以拆出多個細(xì)粒度的神經(jīng)元簇，分發(fā)給多個 CPU 核心一起計算。

具體而言，PowerInfer-2.0 為模型推理的預(yù)填充階段（Prefill）和解碼階段（Decoding）分別設(shè)計了兩套神經(jīng)元簇的劃分方案：

預(yù)填充階段會一次性輸入很多 token，基本上絕大部分神經(jīng)元都會被激活，因此選擇使用大神經(jīng)元簇交給 NPU 計算。CPU 此時也沒有閑著，在后臺為 NPU 執(zhí)行反量化模型權(quán)重的操作。

解碼階段每次只有一個 token，具有較高的稀疏性，因此更加適合劃分成若干細(xì)粒度的神經(jīng)元簇，交給 CPU 靈活調(diào)度和執(zhí)行計算。

神經(jīng)元簇這一概念除了能夠更好的適應(yīng)手機(jī)的異構(gòu)計算環(huán)境，還能天然地支持計算與存儲 I / O 的流水線并行執(zhí)行。

PowerInfer-2.0 提出了分段神經(jīng)元緩存和神經(jīng)元簇級的流水線技術(shù)，在一個神經(jīng)元簇等待 I / O 的同時，可以及時地把另一個已經(jīng)準(zhǔn)備好的神經(jīng)元簇調(diào)度到處理器上進(jìn)行計算，從而充分隱藏了 I / O 的延遲。

同時，這種基于神經(jīng)元簇的流水線打破了傳統(tǒng)推理引擎中逐矩陣計算的方式，可以允許來自不同參數(shù)矩陣的神經(jīng)元簇交錯執(zhí)行，達(dá)到最高的并行效率。

I / O 加載神經(jīng)元的速度對于模型推理也至關(guān)重要。

分段緩存會針對不同的權(quán)重類型采取不同策略（如注意力權(quán)重、預(yù)測器權(quán)重、前饋網(wǎng)絡(luò)權(quán)重）采取不同的緩存策略，提高緩存命中率，減少不必要的磁盤 I / O。

緩存還會使用 LRU 替換算法動態(tài)更新每個神經(jīng)元的實際冷熱情況，確保緩存中放著的都是最熱的神經(jīng)元。此外 PowerInfer-2.0 還針對手機(jī) UFS 4.0 存儲的性能特點(diǎn)，設(shè)計了專門的模型存儲格式，提高讀取性能。

最后再來看一下實測成績，使用一加 12 和一加 Ace 2 兩款測試手機(jī)，在內(nèi)存受限的情況下，PowerInfer-2.0 的預(yù)填充速度都顯著高于 llama.cpp 與 LLM in a Flash（簡稱“LLMFlash”)：

解碼階段同樣是 PowerInfer-2.0 占據(jù)很大優(yōu)勢。特別是對于 Mixtral 47B 這樣的大模型，也能在手機(jī)上跑出 11.68 tokens / s 的速度：

而對于 Mistral 7B 這種可以放進(jìn)手機(jī)運(yùn)行內(nèi)存的模型，PowerInfer-2.0 可以節(jié)約 40% 內(nèi)存的情況下，達(dá)到與 llama.cpp 和 MLC-LLM 同水平甚至更快的解碼速度：

PowerInfer-2.0 是一個模型-系統(tǒng)協(xié)同設(shè)計的方案，也就是需要模型中可預(yù)測稀疏性的配合。

如何以低成本的形式調(diào)整模型以適配 PowerInfer-2.0 框架，也是一個重大挑戰(zhàn)。

低成本高質(zhì)量地大幅提升模型稀疏性

傳統(tǒng)簡單的 ReLU 稀疏化會給模型原本的能力造成不小的影響。

為了克服這個問題，上海交大 IPADS 聯(lián)合清華和上海人工智能實驗室提出一個低成本地稀疏化方法，不僅大幅提升模型的稀疏性，還能保持住模型原本的能力！

首先，論文深入分析了模型稀疏化中的問題：

在類 LLaMA 模型中中簡單引入 ReLU，雖然能引入一定程度的稀疏性，但稀疏度仍然有限。

稀疏化過程由于訓(xùn)練語料的不足和訓(xùn)練 token 的不足導(dǎo)致模型精度下降的問題。

為了提升模型的稀疏度，論文在 ReLU 基礎(chǔ)上提出 dReLU 激活函數(shù)，采用替換原有激活函數(shù)后繼續(xù)預(yù)訓(xùn)練的方式增加模型稀疏性。

將 SwiGLU 替換為 dReLU 一方面直觀地提高了輸出值中的零元素比例，另一方面能更有效地在稀疏化的過程中復(fù)用原本模型訓(xùn)練完成的 gate 和 up 矩陣權(quán)重。

為了克服模型能力下降的問題，團(tuán)隊收集了包括網(wǎng)頁、代碼和數(shù)學(xué)數(shù)據(jù)集在內(nèi)的多樣化繼續(xù)訓(xùn)練語料庫。高質(zhì)量、多樣化的訓(xùn)練數(shù)據(jù)有助于模型在稀疏化后更好地保持和提升性能。

最后，團(tuán)隊訓(xùn)練了 2 個 TurboSparse 大模型進(jìn)行驗證，分別是 8x7B 和 7B 的大模型。得益于高質(zhì)量的繼續(xù)訓(xùn)練語料，TurboSparse 系列模型模型的精度甚至還能反超原版模型（具體見表 6）。

而在稀疏度方面效果也非常顯著。相比于原本的 Mixtral 模型需要激活 13B 參數(shù)量，TurboSparse-Mixtral 只需要激活 4.3B 的參數(shù)量，激活的參數(shù)量是原本模型的三分之一。

而關(guān)于稀疏化過程的成本問題，TurboSparse 論文中介紹，改造過程中模型需要繼續(xù)訓(xùn)練 150B tokens，相比于預(yù)訓(xùn)練（假設(shè) 3T tokens）還不到 5%，說明其成本是很低的。

讓技術(shù)加速走出實驗室

從推理框架和改造模型兩個角度出發(fā)，上海交大團(tuán)隊的成果實現(xiàn)了大語言模型在手機(jī)等資源受限場景下的快速推理。

而且這套方案的潛力不止于手機(jī)，未來在車載設(shè)備、智能家居等方向還有更多應(yīng)用前景。

最后再正式介紹一下團(tuán)隊。上海交通大學(xué)并行與分布式系統(tǒng)研究所（簡稱 IPADS），由陳海波教授領(lǐng)導(dǎo)，現(xiàn)有 13 名教師，100 多名學(xué)生。

IPADS 長期從事計算機(jī)系統(tǒng)的研究，近 10 年在權(quán)威榜單 CSRankings 的 Operating Systems 領(lǐng)域排名全球前二，僅次于 MIT；上海交大也是排名前十中唯一上榜的亞洲高校。

目前，上海交大 IPADS 已經(jīng)在 Huggingface 上開放了稀疏化的模型權(quán)重。在未來，如果 PowerInfer-2.0 能夠與手機(jī)廠商進(jìn)一步緊密合作，相信可以加速相關(guān)技術(shù)走出實驗室，落地到各種真實場景。

PowerInfer-2 論文：https://arxiv.org/abs/2406.06282

TurboSparse 論文：https://arxiv.org/abs/2406.05955

模型權(quán)重：https://huggingface.co/PowerInfer/TurboSparse-Mixtral

本文鏈接：http://www.www897cc.com/showinfo-45-4610-0.html手機(jī)流暢運(yùn)行 470 億大模型：上交大發(fā)布 LLM 手機(jī)推理框架 PowerInfer-2，提速 29 倍

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

下一篇：振興鄉(xiāng)村發(fā)展助力青少年教育中國三星連續(xù)十一年蟬聯(lián)企業(yè)社會責(zé)任榜外企第一

標(biāo)簽：

熱門焦點(diǎn)

《從營銷AIGC化到AIGC營銷化》報告發(fā)布

來源：清元宇宙7月2日上午，清華大學(xué)元宇宙文化實驗室舉辦元宇宙在線沙龍“AIGC熱潮與應(yīng)用”。會議中，清華大學(xué)新聞與傳播學(xué)院教授、元宇宙文化實驗室主任、新媒體研究
從科幻走進(jìn)現(xiàn)實，元宇宙概念逐漸清晰

2021年，元宇宙概念如同一顆炸彈投進(jìn)互聯(lián)網(wǎng)行業(yè)，掀起了一場數(shù)字海嘯，眾多企業(yè)紛紛入局，在此新領(lǐng)域展開新探索。那么，加速狂奔的元宇宙究竟是什么？概念翻紅，元宇宙走進(jìn)資本圈2021年3
如何對一款 NFT 項目進(jìn)行價值評估？

原文作者 | Othmane Senhaji Rhazi，Web 3 企業(yè)家.編譯整理 | 黑米@白澤研究院我之所以成為一位大力倡導(dǎo) Web3 和 NFT 領(lǐng)域的企業(yè)家，因為我相信我們正在見證社會
高通成立歐洲XR實驗室；ICICB計劃進(jìn)軍元宇宙......

擴(kuò)展現(xiàn)實（XR）通過計算機(jī)將真實與虛擬相結(jié)合，打造了一個可人機(jī)交互的虛擬環(huán)境，將AR、VR、MR多種技術(shù)相融合，為體驗者帶來了虛擬世界與現(xiàn)實世界之間無縫轉(zhuǎn)換的“沉浸
銀保監(jiān)會：打擊以“元宇宙”為名義的違法行為

今日，銀保監(jiān)會發(fā)布《關(guān)于防范以“元宇宙”名義進(jìn)行非法集資的風(fēng)險提示》，全文如下：近期，一些不法分子蹭熱點(diǎn)，以“元宇宙投資項目”“元宇宙鏈游”等名目吸收資金，涉
頭頂光環(huán)無數(shù)卻估值極低，以太坊這位&——quot;最強(qiáng)殺手&——quot;有望涅槃重生？

作者：五火球教主提起Dfinity（ICP），你的第一感覺可能與我一樣，這是一個讓人十分糾結(jié)的項目。之所以糾結(jié)，一方面他的團(tuán)隊陣容強(qiáng)大，各種來自前英特爾、IBM、coinbase、fa
Snoop Dogg 計劃推出致力于數(shù)字媒體NFT的專業(yè)公司

雅痞哥不知道這人是誰還上新聞，問了助理，解釋，相當(dāng)于美版劉歡的地位吧。Snoop Dogg 在 NFT 領(lǐng)域已經(jīng)有一段時間了，尤其是在最近有消息稱人們在元宇宙中購買房地產(chǎn)
知識產(chǎn)權(quán)可能在元宇宙中“消失”？

開篇老雅痞先來劃重點(diǎn)：一些公司開始采取積極的方式來保護(hù)他們在元宇宙的知識產(chǎn)權(quán)。耐克、愛馬仕和米拉麥克斯最近提起訴訟，聲稱NFT侵犯了他們的知識產(chǎn)權(quán)。Inside
虛擬偶像行業(yè)的商用價值逐漸凸顯，IP生態(tài)圈也逐漸成型

六月的第一個周六，一場虛擬偶像七海Nana7mi的個人3D演唱會在萬代南夢宮上海文化中心舉行，相較于洛天依、百大UP主泠鳶yousa等，這位虛擬Up主在B站上的粉絲數(shù)43.6萬

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

手機(jī)流暢運(yùn)行 470 億大模型：上交大發(fā)布 LLM 手機(jī)推理框架 PowerInfer-2，提速 29 倍

《從營銷AIGC化到AIGC營銷化》報告發(fā)布

從科幻走進(jìn)現(xiàn)實，元宇宙概念逐漸清晰

如何對一款 NFT 項目進(jìn)行價值評估？

高通成立歐洲XR實驗室；ICICB計劃進(jìn)軍元宇宙......

銀保監(jiān)會：打擊以“元宇宙”為名義的違法行為

頭頂光環(huán)無數(shù)卻估值極低，以太坊這位&——quot;最強(qiáng)殺手&——quot;有望涅槃重生？

Snoop Dogg 計劃推出致力于數(shù)字媒體NFT的專業(yè)公司

知識產(chǎn)權(quán)可能在元宇宙中“消失”？

虛擬偶像行業(yè)的商用價值逐漸凸顯，IP生態(tài)圈也逐漸成型

最新推薦

AI網(wǎng)紅能年賺百萬，普通人的新機(jī)會來了？

錯過了BRC20還有eths,eth銘文協(xié)議

聚焦虛擬數(shù)字人技術(shù)，這三大商機(jī)要抓住！

【東方證券】虛擬世界照進(jìn)現(xiàn)實，元宇宙中有什么？ | 元宇宙Meta洞見

2021年中國元宇宙行業(yè)用戶行為分析熱點(diǎn)報告

MR——元宇宙平臺的下一代入口

猜你喜歡

熱門推薦

相關(guān)資訊