4月11日消息,蘋果近日發布了最新的多模態大語言模型Ferret-UI,該模型專為理解和與移動UI屏幕交互而設計。Ferret-UI在所有基本UI任務上的表現均超越了GPT-4V,顯示出了卓越的理解和交互能力。
據ITBEAR科技資訊了解,Ferret-UI作為一種新的多模態大型語言模型(MLLM),具備指向、定位和推理等多重功能,能夠有效理解和交互移動UI屏幕上的信息。它通過靈活的輸入格式和基礎任務,在移動用戶界面屏幕上執行各種引用任務。Ferret-UI的一個顯著特點是“任何分辨率”技術,通過放大細節來解決UI屏幕中小型對象的識別問題,從而提升了對UI元素的理解精度。
此外,Ferret-UI不僅能夠在詳細描述和感知對話中討論視覺元素,還能在交互對話中提出目標導向的動作,并通過函數推理來推斷屏幕的整體功能。研究人員為了增強模型的推理能力,特別編譯了用于高級任務的數據集,包括詳細描述、感知/交互對話和函數推理等方面的數據。
在基礎任務性能的比較上,Ferret-UI展現出了對UI屏幕的出色理解能力以及執行開放式指令的能力。這項技術的掌握使得AI能夠像人類一樣進行交互,預示著蘋果未來可能將改變MLLM的游戲規則。
通過獨特的模型架構和數據集訓練方法,Ferret-UI實現了對移動UI屏幕的深入理解和有效交互,為用戶帶來了更為智能和便捷的操作體驗。這一技術的突破,無疑將推動科技行業向更智能化、人性化的方向發展。
本文鏈接:http://www.www897cc.com/showinfo-45-5129-0.html蘋果放大招!新模型Ferret-UI將顛覆AI交互?
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com