12 月 27 日消息,清華 KEG 實(shí)驗(yàn)室近日和智譜 AI 合作,聯(lián)合推出了新一代圖像理解大模型 CogAgent。
該模型基于此前推出的 CogVLM,通過(guò)視覺(jué) GUI Agent,使用視覺(jué)模態(tài)(而非文本)對(duì) GUI 界面進(jìn)行更全面直接的感知,從而作出規(guī)劃和決策。
CogAgent 可以接受 1120×1120 的高分辨率圖像輸入,具備視覺(jué)問(wèn)答、視覺(jué)定位(Grounding)、GUI Agent 等多種能力,在 9 個(gè)經(jīng)典的圖像理解榜單上(含 VQAv2,STVQA, DocVQA,TextVQA,MM-VET,POPE 等)取得了通用能力第一的成績(jī)。
例如,用戶輸入一張關(guān)于 CogVLM 項(xiàng)目的 GitHub 的圖片,然后詢問(wèn)如何給這個(gè)項(xiàng)目點(diǎn)“Star”,然后 CogAgent 就會(huì)反饋出結(jié)果。
例如用戶輸入一張?jiān)裼螒虻慕貓D,可以詢問(wèn)“當(dāng)前任務(wù)中的隊(duì)友是誰(shuí)?”,CogAgent 會(huì)給出相關(guān)的回答。
附上相關(guān)信息地址如下:
論文:https://arxiv.org/abs/2312.08914
Demo:Streamlit
代碼:https://github.com/THUDM/CogVLM
本文鏈接:http://www.www897cc.com/showinfo-45-3084-0.html清華大學(xué)合作推出看圖答題小能手 CogAgent:可告知《原神》游戲操作步驟等
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com