日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

微軟 BitNet b1.58 2B4T 登場:內(nèi)存占用僅 0.4GB,20 億參數(shù)模型顛覆 AI 計算

來源: 責(zé)編: 時間:2025-04-20 07:23:39 67觀看
導(dǎo)讀 4 月 18 日消息,科技媒體 WinBuzzer 昨日(4 月 17 日)發(fā)布博文,報道稱微軟研究團隊推出了一款開源大型語言模型 BitNet b1.58 2B4T,區(qū)別于傳統(tǒng)訓(xùn)練后量化的方式,這款擁有 20 億參數(shù)的大型語言模型(LLM)以 1.58 位低精

4 月 18 日消息,科技媒體 WinBuzzer 昨日(4 月 17 日)發(fā)布博文,報道稱微軟研究團隊推出了一款開源大型語言模型 BitNet b1.58 2B4T,區(qū)別于傳統(tǒng)訓(xùn)練后量化的方式,這款擁有 20 億參數(shù)的大型語言模型(LLM)以 1.58 位低精度架構(gòu)原生訓(xùn)練而成。n4228資訊網(wǎng)——每日最新資訊28at.com

n4228資訊網(wǎng)——每日最新資訊28at.com

援引技術(shù)報告介紹,該模型性能直追同規(guī)模全精度模型,但計算資源需求大幅縮減。尤其令人矚目的是,其非嵌入內(nèi)存占用僅 0.4GB,遠低于競品 Gemma-3 1B 的 1.4GB 和 MiniCPM 2B 的 4.8GB。n4228資訊網(wǎng)——每日最新資訊28at.com

BitNet 的高效秘訣在于其創(chuàng)新架構(gòu)。模型摒棄傳統(tǒng) 16 位數(shù)值,采用定制 BitLinear 層,將權(quán)重限制為-1、0、+1 三種狀態(tài),形成三值系統(tǒng),每權(quán)重僅需約 1.58 位信息存儲。n4228資訊網(wǎng)——每日最新資訊28at.com

此外,層間激活值以 8 位整數(shù)量化,形成 W1.58A8 配置。微軟還調(diào)整了 Transformer 架構(gòu),引入平方 ReLU 激活函數(shù)、標準旋轉(zhuǎn)位置嵌入(RoPE)以及 subln 歸一化,確保低位訓(xùn)練穩(wěn)定性。技術(shù)報告稱,這種原生 1 位訓(xùn)練避免了傳統(tǒng)后訓(xùn)練量化(PTQ)帶來的性能損失。n4228資訊網(wǎng)——每日最新資訊28at.com

BitNet b1.58 2B4T 的開發(fā)歷經(jīng)三階段:首先基于 4 萬億 token 的網(wǎng)絡(luò)數(shù)據(jù)、代碼和合成數(shù)學(xué)數(shù)據(jù)集進行預(yù)訓(xùn)練;隨后通過公開及合成指令數(shù)據(jù)集(如 WizardLM Evol-Instruct)進行監(jiān)督微調(diào)(SFT);最后采用直接偏好優(yōu)化(DPO)方法,利用 UltraFeedback 等數(shù)據(jù)集提升對話能力和安全性。n4228資訊網(wǎng)——每日最新資訊28at.com

微軟測試顯示,該模型在 GSM8K(數(shù)學(xué))、PIQA(物理常識)等基準測試中表現(xiàn)優(yōu)異,整體性能媲美主流 1B-2B 參數(shù)全精度模型,同時在能耗(每 token 0.028 焦耳)和 CPU 解碼延遲(29 毫秒)上占據(jù)顯著優(yōu)勢。n4228資訊網(wǎng)——每日最新資訊28at.com

n4228資訊網(wǎng)——每日最新資訊28at.com

n4228資訊網(wǎng)——每日最新資訊28at.com

n4228資訊網(wǎng)——每日最新資訊28at.com

盡管 BitNet 潛力巨大,但其高效性需依賴微軟提供的專用 C++ 框架 bitnet.cpp 實現(xiàn)。標準工具如 Hugging Face transformers 庫無法展現(xiàn)其速度與能耗優(yōu)勢。n4228資訊網(wǎng)——每日最新資訊28at.com

微軟還計劃優(yōu)化 GPU 和 NPU 支持,延長上下文窗口至 4096 token,并探索更大規(guī)模模型、多語言功能及硬件協(xié)同設(shè)計。目前,BitNet b1.58 2B4T 已以 MIT 許可證在 Hugging Face 發(fā)布,供社區(qū)測試與應(yīng)用。n4228資訊網(wǎng)——每日最新資訊28at.com

參考n4228資訊網(wǎng)——每日最新資訊28at.com

BitNet b1.58 2B4T Technical Reportn4228資訊網(wǎng)——每日最新資訊28at.com

hugging face 模型頁面n4228資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-12381-0.html微軟 BitNet b1.58 2B4T 登場:內(nèi)存占用僅 0.4GB,20 億參數(shù)模型顛覆 AI 計算

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 微軟 AI 負責(zé)人預(yù)測:未來“智能”成為新貨幣,知識和能力比錢更重要

下一篇: OpenAI 上線 Flex 處理模式:API 費用減半,但犧牲響應(yīng)速度及穩(wěn)定性

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 内乡县| 满洲里市| 达日县| 康定县| 高邑县| 沽源县| 星座| 宁城县| 中西区| 永寿县| 庆城县| 资兴市| 江阴市| 江油市| 杨浦区| 连平县| 长阳| 周宁县| 望谟县| 中超| 新绛县| 筠连县| 塘沽区| 泌阳县| 攀枝花市| 承德市| 黎平县| 巫溪县| 两当县| 固镇县| 宿州市| 承德县| 三门峡市| 扶沟县| 铜山县| 嘉黎县| 盘锦市| 荥经县| 新巴尔虎左旗| 鲜城| 仙游县|