日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

蘋果介紹 Ferret-UI 多模態大語言模型:更充分理解手機屏幕內容

來源: 責編: 時間:2024-04-11 17:24:58 234觀看
導讀 4 月 10 日消息,蘋果公司近日發布研究論文,展示了 Ferret-UI AI 系統,可以理解應用程序屏幕上的內容。以 ChatGPT 為代表的 AI 大語言模型(LLMs),其訓練材料通常是文本內容。為了能夠讓 AI 模型能夠理解圖像、視頻

4 月 10 日消息,蘋果公司近日發布研究論文,展示了 Ferret-UI AI 系統,可以理解應用程序屏幕上的內容。oHf28資訊網——每日最新資訊28at.com

oHf28資訊網——每日最新資訊28at.com

以 ChatGPT 為代表的 AI 大語言模型(LLMs),其訓練材料通常是文本內容。為了能夠讓 AI 模型能夠理解圖像、視頻和音頻等非文本內容,多模態大語言模型(MLLMs)因此孕育而生。oHf28資訊網——每日最新資訊28at.com

只是現階段 MLLMs 還無法有效理解移動應用程序,這主要有以下幾個原因:oHf28資訊網——每日最新資訊28at.com

1. 手機屏幕的寬高比,和大多數訓練圖像使用的屏幕寬高比不同。oHf28資訊網——每日最新資訊28at.com

2. MLLMs 需要識別出圖標和按鈕,但它們相對來說都比較小。oHf28資訊網——每日最新資訊28at.com

因此蘋果構想了名為 Ferret-UI 的 MLLM 系統解決了這些問題:oHf28資訊網——每日最新資訊28at.com

與自然圖像相比,用戶界面屏幕的長寬比通常更長,包含的關注對象(如圖標、文本)也更小,因此我們在 Ferret 的基礎上加入了 "任意分辨率",以放大細節并利用增強的視覺功能。oHf28資訊網——每日最新資訊28at.com

我們精心收集了大量初級用戶界面任務的訓練樣本,如圖標識別、查找文本和小部件列表。這些樣本的格式都是按照帶有區域注釋的指令來設計的,以便于精確引用和接地。oHf28資訊網——每日最新資訊28at.com

為了增強模型的推理能力,我們進一步編制了高級任務數據集,包括詳細描述、感知 / 交互對話和功能推理。oHf28資訊網——每日最新資訊28at.com

蘋果在論文中表示相比較現有的 GPT-4V,以及其它 MLLMs 模型,Ferret-UI AI 模型更為優秀。oHf28資訊網——每日最新資訊28at.com

oHf28資訊網——每日最新資訊28at.com

oHf28資訊網——每日最新資訊28at.com

oHf28資訊網——每日最新資訊28at.com

oHf28資訊網——每日最新資訊28at.com

oHf28資訊網——每日最新資訊28at.com

附上參考地址oHf28資訊網——每日最新資訊28at.com

Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMsoHf28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-3949-0.html蘋果介紹 Ferret-UI 多模態大語言模型:更充分理解手機屏幕內容

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: OpenAI推出視覺增強版GPT-4 Turbo模型,簡化開發流程

下一篇: 融合視覺能力,OpenAI 向開發人員提供 GPT-4 Turbo with Vision

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 三门峡市| 巢湖市| 昌江| 通城县| 正宁县| 应用必备| 延川县| 景德镇市| 肃北| 淳安县| 桂东县| 林芝县| 淮安市| 夏邑县| 山丹县| 达日县| 临泉县| 石狮市| 奉节县| 会泽县| 阳东县| 红原县| 阳江市| 永平县| 岳阳市| 文登市| 宿州市| 维西| 遂宁市| 铜鼓县| 石柱| 广元市| 隆化县| 饶平县| 仪征市| 马关县| 姜堰市| 微山县| 浪卡子县| 万年县| 九龙县|