日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

微軟開源 OmniParser 純視覺 GUI 智能體:讓 GPT-4V 秒懂屏幕截圖,可操控手機 電腦

來源: 責編: 時間:2024-11-01 09:38:39 85觀看
導讀 10 月 29 日消息,科技媒體 marktechpost 于 10 月 24 日發布博文,報道稱微軟公司宣布開源 OmniParser,是一款解析和識別屏幕上可交互圖標的AI 工具。項目背景傳統的自動化方法通常依賴于解析 HTML 或視圖層次結

10 月 29 日消息,科技媒體 marktechpost 于 10 月 24 日發布博文,報道稱微軟公司宣布開源 OmniParser,是一款解析和識別屏幕上可交互圖標的AI 工具。cTh28資訊網——每日最新資訊28at.com

項目背景

傳統的自動化方法通常依賴于解析 HTML 或視圖層次結構,從而限制了其在非網絡環境中的適用性。cTh28資訊網——每日最新資訊28at.com

而包括 GPT-4V 在內的現有的視覺語言模型(VLMs),并不擅長解讀復雜 GUI 元素,導致動作定位不準確。cTh28資訊網——每日最新資訊28at.com

項目簡介

微軟為了克服這些障礙,推出了 OmniParser,是一種純視覺基礎的工具,旨在填補當前屏幕解析技術中的空白。cTh28資訊網——每日最新資訊28at.com

cTh28資訊網——每日最新資訊28at.com

該工具并不需要依賴額外的上下文數據,可以理解更復雜的圖形用戶界面(GUI),是智能 GUI 自動化領域的一項令人興奮的進展。cTh28資訊網——每日最新資訊28at.com

OmniParser 結合可交互區域檢測模型、圖標描述模型和 OCR 模塊等,不需要 HTML 標簽或視圖層次結構等顯式基礎數據,能夠在桌面、移動設備和網頁等上跨平臺工作,提高用戶界面的解析準確性。cTh28資訊網——每日最新資訊28at.com

OmniParser 除了識別屏幕上的元素,還能將這些元素轉換成結構化的數據。cTh28資訊網——每日最新資訊28at.com

cTh28資訊網——每日最新資訊28at.com

cTh28資訊網——每日最新資訊28at.com

cTh28資訊網——每日最新資訊28at.com

cTh28資訊網——每日最新資訊28at.com

測試表現

OmniParser 在多個基準測試中顯示出優越的性能。例如,在 ScreenSpot 數據集中,其準確率提高了 73%,顯著超越依賴 HTML 解析的模型。cTh28資訊網——每日最新資訊28at.com

cTh28資訊網——每日最新資訊28at.com

cTh28資訊網——每日最新資訊28at.com

cTh28資訊網——每日最新資訊28at.com

這一設計不僅能生成類似文檔對象模型(DOM)的結構化表示,還能通過疊加邊界框和功能標簽來引導語言模型做出更準確的用戶動作預測。cTh28資訊網——每日最新資訊28at.com

同時,GPT-4V 在使用 OmniParser 輸出后,圖標的正確標記率從 70.5% 提升至 93.8%。這些改進表明,OmniParser 能夠有效解決當前 GUI 交互模型的根本缺陷。cTh28資訊網——每日最新資訊28at.com

OmniParser 的發布不僅拓寬了智能體的應用范圍,也為開發者提供了一個強大的工具,助力創建更智能、更高效的用戶界面驅動智能體。微軟目前已在 Hugging Face 上發布 OmniParser,普及這一前沿技術,將進一步推動多模態 AI 的發展,特別是在無障礙、自動化和智能用戶輔助等領域。cTh28資訊網——每日最新資訊28at.com

附上參考地址cTh28資訊網——每日最新資訊28at.com

Microsoft AI Releases OmniParser Model on HuggingFace: A Compact Screen Parsing Module that can Convert UI Screenshots into Structured ElementscTh28資訊網——每日最新資訊28at.com

Microsoft’s New vision based GUI agent — OmniParsercTh28資訊網——每日最新資訊28at.com

OmniParser for Pure Vision Based GUI AgentcTh28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-9349-0.html微軟開源 OmniParser 純視覺 GUI 智能體:讓 GPT-4V 秒懂屏幕截圖,可操控手機 電腦

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 智源推出全能視覺生成模型 OmniGen:支持文生圖、圖像編輯等

下一篇: GLM-4-Plus賦能“閱讀智能體”,效率飆升300%?

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 游戏| 上思县| 达孜县| 崇信县| 电白县| 彰化市| 扶余县| 舟曲县| 监利县| 永顺县| 桂平市| 都昌县| 玛多县| 铜陵市| 武川县| 乌鲁木齐县| 当雄县| 富宁县| 三门县| 万荣县| 南充市| 霍州市| 呼和浩特市| 香港 | 大田县| 普兰店市| 汝南县| 澳门| 松江区| 龙南县| 汉沽区| 连州市| 邯郸县| 孝义市| 博湖县| 陇南市| 托克托县| 巴彦县| 泸西县| 怀安县| 海丰县|