4月11日消息,蘋果近日發(fā)布了最新的多模態(tài)大語言模型Ferret-UI,該模型專為理解和與移動UI屏幕交互而設計。Ferret-UI在所有基本UI任務上的表現(xiàn)均超越了GPT-4V,顯示出了卓越的理解和交互能力。
據(jù)ITBEAR科技資訊了解,F(xiàn)erret-UI作為一種新的多模態(tài)大型語言模型(MLLM),具備指向、定位和推理等多重功能,能夠有效理解和交互移動UI屏幕上的信息。它通過靈活的輸入格式和基礎任務,在移動用戶界面屏幕上執(zhí)行各種引用任務。Ferret-UI的一個顯著特點是“任何分辨率”技術,通過放大細節(jié)來解決UI屏幕中小型對象的識別問題,從而提升了對UI元素的理解精度。
此外,F(xiàn)erret-UI不僅能夠在詳細描述和感知對話中討論視覺元素,還能在交互對話中提出目標導向的動作,并通過函數(shù)推理來推斷屏幕的整體功能。研究人員為了增強模型的推理能力,特別編譯了用于高級任務的數(shù)據(jù)集,包括詳細描述、感知/交互對話和函數(shù)推理等方面的數(shù)據(jù)。
在基礎任務性能的比較上,F(xiàn)erret-UI展現(xiàn)出了對UI屏幕的出色理解能力以及執(zhí)行開放式指令的能力。這項技術的掌握使得AI能夠像人類一樣進行交互,預示著蘋果未來可能將改變MLLM的游戲規(guī)則。
通過獨特的模型架構和數(shù)據(jù)集訓練方法,F(xiàn)erret-UI實現(xiàn)了對移動UI屏幕的深入理解和有效交互,為用戶帶來了更為智能和便捷的操作體驗。這一技術的突破,無疑將推動科技行業(yè)向更智能化、人性化的方向發(fā)展。
本文鏈接:http://www.www897cc.com/showinfo-45-5129-0.html蘋果放大招!新模型Ferret-UI將顛覆AI交互?
聲明:本網(wǎng)頁內容旨在傳播知識,若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com