近日,蘋果發布研究論文,展示了名叫“Ferret-UI”的多模態大語言模型。
根據論文介紹,Ferret-UI模型針對目前MLLMs模型(多模態大語言模型)無法有效理解移動應用程序在屏幕上顯示的內容這一問題,做出了針對性的調整。
為了訓練Ferret-UI,蘋果收集了大量初級用戶界面任務的訓練樣本,如圖標識別、查找文本和小部件列表。
這些樣本的格式都是按照帶有區域注釋的指令來設計的,以便于精確引用和接地。
同時,為了增強模型的推理能力,蘋果進一步編制了高級任務數據集,包括詳細描述、感知/交互對話和功能推理。
這使得Ferret-UI相較目前的GPT-4V等MLLMs模型,在理解應用程序在屏幕上顯示的內容時,有著顯著的優勢。
本文鏈接:http://www.www897cc.com/showinfo-22-82548-0.html蘋果論文展示Ferret-UI大語言模型:可深度理解屏幕信息內容
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com