5 月 1 日消息,阿里巴巴持續(xù)發(fā)力 AI 領(lǐng)域,其 Qwen 團(tuán)隊(duì)于 3 月發(fā)布 Qwen2.5-Omni-7B 模型后,昨日(4 月 30 日)再次發(fā)布 Qwen2.5-Omni-3B,目前可以在 Hugging Face 上開放下載。
注:這款 3B 參數(shù)模型是其 7B 旗艦多模態(tài)模型的輕量版本,專為消費(fèi)級硬件設(shè)計(jì),覆蓋文本、音頻、圖像和視頻等多種輸入功能。
團(tuán)隊(duì)表示,盡管參數(shù)規(guī)模縮小,3B 版本在多模態(tài)性能上仍保持了 7B 模型的 90% 以上,尤其在實(shí)時(shí)文本生成和自然語音輸出方面表現(xiàn)亮眼。
基準(zhǔn)測試顯示,其在視頻理解(VideoBench: 68.8)和語音生成(Seed-tts-eval test-hard: 92.1)等任務(wù)中接近 7B 模型水平。
Qwen2.5-Omni-3B 在內(nèi)存使用上的改進(jìn)尤為突出。團(tuán)隊(duì)報(bào)告稱,處理 25,000 token 的長上下文輸入時(shí),該模型 VRAM 占用減少 53%,從 7B 模型的 60.2 GB 降至 28.2 GB。
這意味著該模型可在 24GB GPU 上運(yùn)行,無需企業(yè)級 GPU 集群支持,可以在高端臺式機(jī)和筆記本電腦上運(yùn)行。
其架構(gòu)創(chuàng)新,如 Thinker-Talker 設(shè)計(jì)和定制位置嵌入方法 TMRoPE,確保了視頻與音頻輸入的同步理解。此外,模型支持 FlashAttention 2 和 BF16 精度優(yōu)化,進(jìn)一步提升速度并降低內(nèi)存消耗。
Qwen2.5-Omni-3B 的使用受到嚴(yán)格限制。根據(jù)許可條款,該模型僅限研究用途,企業(yè)若想開發(fā)商業(yè)產(chǎn)品,必須先從阿里巴巴 Qwen 團(tuán)隊(duì)獲取單獨(dú)許可,意味著該模型非直接生產(chǎn)部署,定位更偏向于測試和原型開發(fā)。
參考
Hugging Face
GitHub 頁面
魔搭社區(qū)
Multimodal AI on Developer GPUs: Alibaba Releases Qwen2.5-Omni-3B with 50% Lower VRAM Usage and Nearly-7B Model Performance
Qwen swings for a double with 2.5-Omni-3B model that runs on consumer PCs, laptops
本文鏈接:http://www.www897cc.com/showinfo-45-12696-0.html阿里通義千問 2.5-Omni-3B AI 全模態(tài)登場:7B 版 90% 性能,顯存占用減少 53%
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 谷歌 Gemini AI 醞釀新高級訂閱層級,Ultra 蓄勢待發(fā)
下一篇: DeepSeek-Prover-V2 登場:AI 數(shù)學(xué)推理新王者,88.9% 通過率設(shè)新標(biāo)桿