日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 科技  > 軟件

微軟開源 1.58bit 推理框架:千億參數(shù)模型量化后單 CPU 可跑,速度每秒 5-7 個(gè) token

來源: 責(zé)編: 時(shí)間:2024-10-23 09:27:40 101觀看
導(dǎo)讀 微軟開源 1bit 大模型推理框架!現(xiàn)在 1000 億參數(shù)大模型量化后單 CPU 可跑,速度可達(dá)每秒 5-7 個(gè) token。比如在蘋果 M2 新品上運(yùn)行 BitNet b1.58 3B 模型,be like:就是今年爆火論文 The Era of 1-bit LLMs 的官方

微軟開源 1bit 大模型推理框架!U8X28資訊網(wǎng)——每日最新資訊28at.com

現(xiàn)在 1000 億參數(shù)大模型量化后單 CPU 可跑,速度可達(dá)每秒 5-7 個(gè) token。U8X28資訊網(wǎng)——每日最新資訊28at.com

比如在蘋果 M2 新品上運(yùn)行 BitNet b1.58 3B 模型,be like:U8X28資訊網(wǎng)——每日最新資訊28at.com

U8X28資訊網(wǎng)——每日最新資訊28at.com

就是今年爆火論文 The Era of 1-bit LLMs 的官方代碼實(shí)現(xiàn),開源不到一周 GitHub 已攬獲 7.9k Star。U8X28資訊網(wǎng)——每日最新資訊28at.com

U8X28資訊網(wǎng)——每日最新資訊28at.com

傳統(tǒng)大模型參數(shù)以 16 位浮點(diǎn)數(shù)(如 FP16 或 BF16)形式的存儲(chǔ),而 BitNet b1.58 將其統(tǒng)統(tǒng)變成了三進(jìn)制,也就是{-1, 0, 1}。U8X28資訊網(wǎng)——每日最新資訊28at.com

U8X28資訊網(wǎng)——每日最新資訊28at.com

這里的“1.58 bit”指每個(gè)參數(shù)可以用 1.58 位的信息來表示。U8X28資訊網(wǎng)——每日最新資訊28at.com

轉(zhuǎn)換之后,矩陣中的計(jì)算就只會(huì)涉及到加法,因此會(huì)讓大模型在保持一定精度的同時(shí),顯著減少所需的存儲(chǔ)空間和計(jì)算資源,也顯著提升了在本地設(shè)備上運(yùn)行 LLM 的可能性。U8X28資訊網(wǎng)——每日最新資訊28at.com

這個(gè)項(xiàng)目開源后,在 X 上也受到了一波高度關(guān)注。U8X28資訊網(wǎng)——每日最新資訊28at.com

U8X28資訊網(wǎng)——每日最新資訊28at.com

千億參數(shù)模型量化后單 CPU 可跑

bitnet.cpp 是 1bit LLM(例如 BitNet b1.58)的官方推理框架。U8X28資訊網(wǎng)——每日最新資訊28at.com

該框架配備了一系列優(yōu)化內(nèi)核,支持在 CPU 上進(jìn)行快速且無損的 1.58bit 模型推理,未來將擴(kuò)展支持 NPU 和 GPU。U8X28資訊網(wǎng)——每日最新資訊28at.com

bitnet.cpp 的首版主要支持 CPU 推理。U8X28資訊網(wǎng)——每日最新資訊28at.com

具體性能改進(jìn)方面,在 ARM CPU 上,該框架可實(shí)現(xiàn) 1.37 至 5.07 倍的加速,而且更大的模型將有更顯著的性能提升。U8X28資訊網(wǎng)——每日最新資訊28at.com

同時(shí),它能將能耗降低 55.4% 至 70.0%,進(jìn)一步增強(qiáng)效率。U8X28資訊網(wǎng)——每日最新資訊28at.com

U8X28資訊網(wǎng)——每日最新資訊28at.com

在 x86 CPU 上,加速效果介于 2.37 至 6.17 倍之間,能耗減少 71.9% 至 82.2%。U8X28資訊網(wǎng)——每日最新資訊28at.com

U8X28資訊網(wǎng)——每日最新資訊28at.com

網(wǎng)友們也發(fā)現(xiàn)了華點(diǎn),在 x86 上的性能增益量比 ARM 更大。U8X28資訊網(wǎng)——每日最新資訊28at.com

U8X28資訊網(wǎng)——每日最新資訊28at.com

此外,bitnet.cpp 能使千億參數(shù)模型量化后單 CPU 可跑,速度可達(dá)每秒 5-7 個(gè) token,接近人類閱讀速度。U8X28資訊網(wǎng)——每日最新資訊28at.com

微軟還展示了使用 bitnet.cpp 推理框架支持的不同 1 bit LLM。U8X28資訊網(wǎng)——每日最新資訊28at.com

U8X28資訊網(wǎng)——每日最新資訊28at.com

6 頁論文,引入 1 bit LLM

1 bit LLM 的實(shí)現(xiàn)方法,微軟在一年前就有相關(guān)研究,稱為 BitNet(一種 Transformer),用 BitLinear 替換了 nn.Linear。U8X28資訊網(wǎng)——每日最新資訊28at.com

U8X28資訊網(wǎng)——每日最新資訊28at.com

U8X28資訊網(wǎng)——每日最新資訊28at.com

今年二月,BitNet 原班人馬在上一篇論文的基礎(chǔ)之上做了優(yōu)化,提出 BitNet b1.58,在原始 BitNet 的基礎(chǔ)上增加了一個(gè)額外的 0 值。U8X28資訊網(wǎng)——每日最新資訊28at.com

然后這篇內(nèi)容只有 6 頁的論文引發(fā)熱議:U8X28資訊網(wǎng)——每日最新資訊28at.com

U8X28資訊網(wǎng)——每日最新資訊28at.com

BitNet b1.58 模型的權(quán)重被量化為三元值 {-1, 0, 1},相當(dāng)于在二進(jìn)制系統(tǒng)中使用了 1.58 bit 來表示每個(gè)權(quán)重。U8X28資訊網(wǎng)——每日最新資訊28at.com

采用了 absmean 量化函數(shù)來約束權(quán)重,將權(quán)重矩陣通過其平均絕對(duì)值進(jìn)行縮放,然后四舍五入到最接近的整數(shù)值(-1、0 或 1)。U8X28資訊網(wǎng)——每日最新資訊28at.com

U8X28資訊網(wǎng)——每日最新資訊28at.com

激活量化中,激活值被縮放到 [?Qb, Qb] 的范圍,以此來消除零點(diǎn)量化。U8X28資訊網(wǎng)——每日最新資訊28at.com

在架構(gòu)設(shè)計(jì)上,BitNet b1.58 借鑒了 Llama,使用了 RMSNorm、SwiGLU、旋轉(zhuǎn)位置編碼等組件,并移除了所有偏置項(xiàng)。這種設(shè)計(jì)使其能夠輕松集成到主流的開源框架中。U8X28資訊網(wǎng)——每日最新資訊28at.com

實(shí)驗(yàn)中,與 Llama 相比,BitNet b1.58 在矩陣乘法方面節(jié)省了 71.4 倍的計(jì)算能耗。U8X28資訊網(wǎng)——每日最新資訊28at.com

U8X28資訊網(wǎng)——每日最新資訊28at.com

這種方法發(fā)布后,也有不少人在這項(xiàng)研究的基礎(chǔ)之上進(jìn)行探索。U8X28資訊網(wǎng)——每日最新資訊28at.com

其中一個(gè)問題是,BitNet b1.58 將每個(gè)參數(shù)僅用三元值表示,但是所有這些都需要從頭開始訓(xùn)練模型,并不是誰都有預(yù)算來進(jìn)行 LLM 預(yù)訓(xùn)練。U8X28資訊網(wǎng)——每日最新資訊28at.com

而 Huggingface Transformers 最近整合了 BitNet b1.58,運(yùn)用了一些技巧,使得現(xiàn)有模型可以直接微調(diào)到 1.58bit。U8X28資訊網(wǎng)——每日最新資訊28at.com

感興趣的童鞋可以自行查閱。U8X28資訊網(wǎng)——每日最新資訊28at.com

U8X28資訊網(wǎng)——每日最新資訊28at.com

不過也有網(wǎng)友指出了這種方法的局限:U8X28資訊網(wǎng)——每日最新資訊28at.com

U8X28資訊網(wǎng)——每日最新資訊28at.com

總之,1 bit LLM 具有巨大的潛力。U8X28資訊網(wǎng)——每日最新資訊28at.com

但也正如網(wǎng)友所言,1 bit LLM 關(guān)鍵還得是能在實(shí)踐中證明自己。U8X28資訊網(wǎng)——每日最新資訊28at.com

U8X28資訊網(wǎng)——每日最新資訊28at.com

參考鏈接:U8X28資訊網(wǎng)——每日最新資訊28at.com

[1]https://github.com/microsoft/BitNetU8X28資訊網(wǎng)——每日最新資訊28at.com

[2]https://x.com/rohanpaul_ai/status/1847814379657462201U8X28資訊網(wǎng)——每日最新資訊28at.com

[3]https://x.com/rohanpaul_ai/status/1848172443258728860?s=46&t=iTysI4vQLQqCNJjSmBODPwU8X28資訊網(wǎng)——每日最新資訊28at.com

[4]https://huggingface.co/blog/zh/1_58_llm_extreme_quantizationU8X28資訊網(wǎng)——每日最新資訊28at.com

本文來自微信公眾號(hào):微信公眾號(hào)(ID:QbitAI),作者:西風(fēng),原標(biāo)題《微軟開源爆火 1.58bit 大模型推理框架!千億參數(shù)模型量化后單 CPU 可跑,速度每秒 5-7 個(gè) token》U8X28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-26-125201-0.html微軟開源 1.58bit 推理框架:千億參數(shù)模型量化后單 CPU 可跑,速度每秒 5-7 個(gè) token

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: 安吉爾 37 周年盛典,超值福利大放送

下一篇: 科大訊飛星火超擬人數(shù)字人發(fā)布:業(yè)界率先實(shí)現(xiàn)“口唇-表情-動(dòng)作”生成,多模態(tài)交互

標(biāo)簽:
  • 熱門焦點(diǎn)
Top 主站蜘蛛池模板: 平山县| 札达县| 陆良县| 郎溪县| 高淳县| 阜新市| 海原县| 礼泉县| 河曲县| 木兰县| 武穴市| 长寿区| 宾川县| 柘城县| 绥阳县| 楚雄市| 房山区| 平定县| 镇宁| 怀安县| 玉环县| 辉县市| 邓州市| 栖霞市| 阿拉善右旗| 英山县| 平潭县| 满洲里市| 青神县| 九龙坡区| 包头市| 晴隆县| 延吉市| 高阳县| 沅陵县| 瑞丽市| 错那县| 女性| 扎兰屯市| 通许县| 安化县|