4 月 19 日消息,谷歌公司昨日(4 月 18 日)發(fā)布博文,發(fā)布了量化感知訓(xùn)練(QAT)優(yōu)化版 Gemma 3 模型,在保持高質(zhì)量的同時(shí),降低內(nèi)存需求。
谷歌上月推出 Gemma 3 開(kāi)源模型,能在單臺(tái) NVIDIA H100 GPU 上以 BFloat16(BF16)精度高效運(yùn)行。
援引博文介紹,谷歌為響應(yīng)用戶需求,致力于讓 Gemma 3 的強(qiáng)大性能適配普通硬件。量化技術(shù)是關(guān)鍵,通過(guò)降低模型參數(shù)的數(shù)值精度(如從 BF16 的 16 位降至 int4 的 4 位),類(lèi)似圖像壓縮減少顏色數(shù)量,大幅減少數(shù)據(jù)存儲(chǔ)量。
以 int4 量化為例,Gemma 3 27B 顯存需求從 54GB 銳減至 14.1GB,Gemma 3 12B 則從 24GB 降至 6.6GB;Gemma 3 1B 僅需 0.5GB 顯存。
這意味著用戶可在桌面(NVIDIA RTX 3090)或筆記本(NVIDIA RTX 4060 Laptop GPU)上運(yùn)行強(qiáng)大 AI 模型,甚至手機(jī)也能支持小型模型。
為避免量化導(dǎo)致性能下降,谷歌采用量化感知訓(xùn)練(QAT)技術(shù),在訓(xùn)練過(guò)程中模擬低精度運(yùn)算,確保模型在壓縮后仍保持高準(zhǔn)確性。Gemma 3 QAT 模型在約 5000 步訓(xùn)練中,將困惑度下降減少了 54%。
Ollama、LM Studio 和 llama.cpp 等主流平臺(tái)已集成該模型,用戶可通過(guò) Hugging Face 和 Kaggle 獲取官方 int4 和 Q4_0 模型,輕松在 Apple Silicon 或 CPU 上運(yùn)行。此外,Gemmaverse 社區(qū)提供了更多量化選項(xiàng),滿足不同需求。
本文鏈接:http://www.www897cc.com/showinfo-45-12448-0.html27B 顯存需求 54 → 14.1GB:谷歌發(fā)布 Gemma 3 QAT AI 模型,RTX 3090 顯卡可運(yùn)行
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com