智譜AI近期震撼發(fā)布了其最新一代的視覺推理模型GLM-4.5V,并慷慨地選擇將此模型在GitHub、Hugging Face及魔搭社區(qū)上以MIT開源協(xié)議進(jìn)行共享,此舉不僅展現(xiàn)了其對技術(shù)開放的承諾,也為商業(yè)應(yīng)用提供了無限可能。
GLM-4.5V,作為一個擁有龐大參數(shù)的VLM(視覺-語言模型),其總參數(shù)高達(dá)1,060億,激活參數(shù)亦有120億。該模型是在智譜AI的旗艦文本模型GLM-4.5-Air的基礎(chǔ)上精心打造,并繼承了GLM-4.1V-Thinking的技術(shù)精髓。值得注意的是,GLM-4.5V在41項公開的多模態(tài)基準(zhǔn)測試中,均取得了同級別開源模型中的頂尖表現(xiàn)。

技術(shù)層面,GLM-4.5V由三大核心組件構(gòu)成:視覺編碼器、MLP適配器以及語言解碼器。通過引入創(chuàng)新的三維旋轉(zhuǎn)位置編碼(3D-RoPE),模型對三維空間關(guān)系的理解及推理能力得到了顯著提升。它能夠處理包含64K tokens的多模態(tài)長上下文輸入,并利用三維卷積技術(shù),顯著優(yōu)化了視頻處理效率。這一設(shè)計讓GLM-4.5V不僅能處理靜態(tài)圖像,還能深入解析視頻內(nèi)容,對高分辨率及極端寬高比的圖像同樣展現(xiàn)出強(qiáng)大的處理能力和穩(wěn)定性。
為了全面增強(qiáng)GLM-4.5V的多模態(tài)能力,智譜AI在模型訓(xùn)練的每個階段都實施了精細(xì)的優(yōu)化策略。預(yù)訓(xùn)練階段,模型在龐大的圖文交錯多模態(tài)語料及長上下文內(nèi)容的滋養(yǎng)下,建立了對復(fù)雜圖文和視頻內(nèi)容的堅實基礎(chǔ)。隨后,在監(jiān)督微調(diào)階段,通過引入“思維鏈”格式的顯式訓(xùn)練樣本,進(jìn)一步加深了模型的因果推理和多模態(tài)理解能力。最終,在強(qiáng)化學(xué)習(xí)階段,借助多領(lǐng)域獎勵系統(tǒng),結(jié)合可驗證獎勵強(qiáng)化學(xué)習(xí)(RLVR)與人類反饋強(qiáng)化學(xué)習(xí)(RLHF),模型在STEM問題、多模態(tài)定位及智能體任務(wù)等多個領(lǐng)域均實現(xiàn)了顯著提升。
GLM-4.5V的實際表現(xiàn)同樣令人矚目。在圖像推理方面,它能夠進(jìn)行復(fù)雜的場景解析和多圖綜合判斷。例如,它能根據(jù)用戶的自然語言指令,準(zhǔn)確識別圖像中的目標(biāo)物體,并標(biāo)注出精確的位置坐標(biāo)。更令人驚嘆的是,它還能通過分析圖像中的微小線索,如植被類型、氣候痕跡及建筑風(fēng)格,推斷出照片的拍攝地點(diǎn)及大致地理位置,這一能力甚至超越了許多專業(yè)工具。

在復(fù)雜文檔理解領(lǐng)域,GLM-4.5V同樣展現(xiàn)出了卓越的能力。它能夠處理包含大量圖表的長文本,同步理解文字與圖像信息,從而準(zhǔn)確地進(jìn)行內(nèi)容總結(jié)、翻譯及圖表信息提取,有效避免了傳統(tǒng)方法中可能出現(xiàn)的錯誤傳遞問題。針對前端開發(fā)及用戶界面交互任務(wù),GLM-4.5V還提供了“前端復(fù)刻”功能,通過分析網(wǎng)頁截圖或交互視頻,能夠生成相應(yīng)的HTML、CSS及Javascript代碼,完美復(fù)刻網(wǎng)頁的布局、樣式及交互邏輯。
GLM-4.5V的GUI Agent能力同樣值得稱道,它能夠識別和處理電子屏幕畫面,執(zhí)行對話問答、圖標(biāo)定位等任務(wù),為開發(fā)桌面環(huán)境智能體應(yīng)用奠定了堅實基礎(chǔ)。智譜AI還同步開源了一款桌面助手應(yīng)用,該應(yīng)用能夠?qū)崟r捕獲屏幕信息,依托GLM-4.5V處理多種視覺推理任務(wù),涵蓋代碼輔助、視頻內(nèi)容分析、游戲解答及文檔解讀等多個領(lǐng)域。
本文鏈接:http://www.www897cc.com/showinfo-21-177082-0.html智譜AI開源GLM-4.5V視覺推理模型,41項多模態(tài)基準(zhǔn)測試獲SOTA性能
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com