當前,多模態大模型(MLLM)在多項視覺任務上展現出了強大的認知理解能力。然而大部分多模態大模型局限于單向的圖像理解,難以將理解的內容映射回圖像上。
比如,模型能輕易說出圖中有哪些物體,但無法將物體在圖中準確標識出來。
定位能力的缺失直接限制了多模態大模型在圖像編輯,自動駕駛,機器人控制等下游領域的應用。
針對這一問題,港大和字節跳動商業化團隊的研究人員提出了一種新范式 Groma——
通過區域性圖像編碼來提升多模態大模型的感知定位能力。
在融入定位后,Groma 可以將文本內容和圖像區域直接關聯起來,從而顯著提升對話的交互性和指向性。
如何賦予多模態大模型定位物體的能力,乃至于將文字內容和圖像區域關聯起來,做到“言之有物”,是當前一大研究熱點。
常見的做法是微調大語言模型使其直接輸出物體坐標。然而這種方法卻有著諸多限制:
1、在文本上預訓練的大語言模型本身不具備空間理解能力,僅依靠少量數據微調很難精準定位物體。
2、定位任務對輸入圖像的分辨率有較高要求,但提高分辨率會顯著增加多模態大模型的計算量。
3、大語言模型的輸出形式不適合處理精細的定位任務,比如分割。
基于這些考慮,Groma 提出將定位轉移到多模態大模型的 vision tokenizer 中,由 vision tokenizer 發現并定位潛在的物體,再交給大語言模型識別。
同時,這樣的設計也充分利用了 vision tokenizer 本身的空間理解能力,而無需外接專家模型(比如 SAM)來輔助定位,從而避免了外接模型的冗余。
具體而言,Groma 在全局圖像編碼的基礎上,引入了區域編碼來實現定位功能 —— 如下圖所示,Groma 先利用 Region Proposer 定位潛在的物體,再通過 Region Encoder 將定位到的區域逐一編碼成 region token。
而大語言模型則可以根據 region token 的語意判斷其對應的區域,并通過在輸出中插入 region token 來達成類似超鏈接的效果,實現 visually grounded conversation。
同樣地,用戶指定的區域也可以通過 Region Encoder 編碼成相應的 region token,并插入到用戶指令中,從而讓多模態模型能關注到指定的區域并產生指向性的回答。
為了提升定位的魯棒性和準確性,Groma 采用了超過 8M 的數據(包括 SA1B)來預訓練 Region Proposer。因此其產生的 proposal 不僅包括常見的物體,也涵蓋了物體的組成部分以及更廣闊的背景等要素。
此外,得益于分離式的設計,Groma 可以采用高分辨率特征圖用于 Region Proposer / Encoder 的輸入,并采用低分辨率的特征圖用于大模型輸入,從而在降低計算量的同時又不損失定位性能。
實驗結果Groma 在傳統的 Grounding Benchmarks 上表現出了超越 MiniGPT-v2 和 Qwen-VL 的性能。
同時,Groma 在多模態大模型通用的 VQA Benchmark (LLaVA-COCO) 驗證了其對話和推理能力。
在可視化的對比中,Groma 也表現出了更高的 recall 和更少的幻覺。
此外,Groma 還支持融合對話能力和定位能力的 referential dialogue 以及 grounded chat。
得益于大語言模型強大的認知推理能力,多模態大模型在視覺理解任務上表現突出。
然而一些傳統的視覺任務,如檢測分割、深度估計等,更多依賴視覺感知能力,這恰恰是大語言模型所缺乏的。
Groma 在這個問題上提供了一種新的解決思路,即把感知和認知解耦開來,由 vision tokenizer 負責感知,大語言模型負責認知。
這種先感知后認知的形式除了更符合人類的視覺過程,也避免了重新訓練大語言模型的計算開銷。
5 月 15 日,字節跳動剛剛公布了自研的豆包大模型,提供多模態能力,下游支持豆包 App、扣子、即夢等 50 + 業務,并通過火山引擎開放給企業客戶,助力企業提升效率、加速智能化創新。目前,豆包 App 已成為中國市場用戶量最大的 AIGC 應用。字節跳動正持續加大對頂尖人才和前沿技術的投入力度,參與行業頂尖的技術挑戰和攻堅。
項目網站:
https://groma-mllm.github.io
論文鏈接:
https://arxiv.org/abs/2404.13013
開源代碼:
https://github.com/FoundationVision/Groma
本文來自微信公眾號:量子位 (ID:QbitAI),作者:允中
本文鏈接:http://www.www897cc.com/showinfo-45-4477-0.html港大字節提出多模態大模型新范式,模擬人類先感知后認知,精確定位圖中物體
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com