8 月 11 日消息,智譜 AI 今日推出全球 100B 級效果最佳的開源視覺推理模型 GLM-4.5V(總參數(shù) 106B,激活參數(shù) 12B),并同步在魔搭社區(qū)與 Hugging Face 開源。此外,API 調(diào)用價格低至輸入 2 元 / M tokens,輸出 6 元 / M tokens。

從官方介紹獲悉,GLM-4.5V 基于智譜新一代旗艦文本基座模型 GLM-4.5-Air,延續(xù) GLM-4.1V-Thinking 技術(shù)路線,在 41 個公開視覺多模態(tài)榜單中綜合效果達(dá)到同級別開源模型 SOTA 性能,涵蓋圖像、視頻、文檔理解以及 GUI Agent 等常見任務(wù)。

在多模態(tài)榜單之外,其更重視模型在真實場景下的表現(xiàn)與可用性。GLM-4.5V 通過高效混合訓(xùn)練,具備覆蓋不同種視覺內(nèi)容的處理能力,實現(xiàn)全場景視覺推理,包括:
圖像推理(場景理解、復(fù)雜多圖分析、位置識別)
視頻理解(長視頻分鏡分析、事件識別)
GUI 任務(wù)(屏幕讀取、圖標(biāo)識別、桌面操作輔助)
復(fù)雜圖表與長文檔解析(研報分析、信息提取)
Grounding 能力(精準(zhǔn)定位視覺元素)

同時,模型新增“思考模式”開關(guān),用戶可靈活選擇快速響應(yīng)或深度推理,平衡效率與效果。為幫助開發(fā)者直觀體驗 GLM-4.5V 的模型能力,打造專屬于自己的多模態(tài)應(yīng)用,智譜 AI 同步開源了一款桌面助手應(yīng)用。
該桌面應(yīng)用可實時截屏、錄屏獲取屏幕信息,并依托 GLM-4.5V 處理多種視覺推理任務(wù),日常處理如代碼輔助、視頻內(nèi)容分析、游戲解答、文檔解讀等多類視覺任務(wù),成為一個能看著屏幕和你一起工作娛樂的伙伴。我們也希望通過模型開源和 API 服務(wù),賦能更多有想法的開發(fā)者,基于多模態(tài)基座模型發(fā)揮創(chuàng)意和想象,把過去科幻電影中的場景變?yōu)楝F(xiàn)實。
本文鏈接:http://www.www897cc.com/showinfo-45-26014-0.html智譜視覺推理模型 GLM-4.5V 上線并開源,號稱“全球 100B 級效果最佳”
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com