日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

微軟開源 OmniParser 純視覺 GUI 智能體:讓 GPT-4V 秒懂屏幕截圖,可操控手機 電腦

來源: 責編: 時間:2024-11-01 09:38:39 63觀看
導讀 10 月 29 日消息,科技媒體 marktechpost 于 10 月 24 日發布博文,報道稱微軟公司宣布開源 OmniParser,是一款解析和識別屏幕上可交互圖標的AI 工具。項目背景傳統的自動化方法通常依賴于解析 HTML 或視圖層次結

10 月 29 日消息,科技媒體 marktechpost 于 10 月 24 日發布博文,報道稱微軟公司宣布開源 OmniParser,是一款解析和識別屏幕上可交互圖標的AI 工具。dCW28資訊網——每日最新資訊28at.com

項目背景

傳統的自動化方法通常依賴于解析 HTML 或視圖層次結構,從而限制了其在非網絡環境中的適用性。dCW28資訊網——每日最新資訊28at.com

而包括 GPT-4V 在內的現有的視覺語言模型(VLMs),并不擅長解讀復雜 GUI 元素,導致動作定位不準確。dCW28資訊網——每日最新資訊28at.com

項目簡介

微軟為了克服這些障礙,推出了 OmniParser,是一種純視覺基礎的工具,旨在填補當前屏幕解析技術中的空白。dCW28資訊網——每日最新資訊28at.com

dCW28資訊網——每日最新資訊28at.com

該工具并不需要依賴額外的上下文數據,可以理解更復雜的圖形用戶界面(GUI),是智能 GUI 自動化領域的一項令人興奮的進展。dCW28資訊網——每日最新資訊28at.com

OmniParser 結合可交互區域檢測模型、圖標描述模型和 OCR 模塊等,不需要 HTML 標簽或視圖層次結構等顯式基礎數據,能夠在桌面、移動設備和網頁等上跨平臺工作,提高用戶界面的解析準確性。dCW28資訊網——每日最新資訊28at.com

OmniParser 除了識別屏幕上的元素,還能將這些元素轉換成結構化的數據。dCW28資訊網——每日最新資訊28at.com

dCW28資訊網——每日最新資訊28at.com

dCW28資訊網——每日最新資訊28at.com

dCW28資訊網——每日最新資訊28at.com

dCW28資訊網——每日最新資訊28at.com

測試表現

OmniParser 在多個基準測試中顯示出優越的性能。例如,在 ScreenSpot 數據集中,其準確率提高了 73%,顯著超越依賴 HTML 解析的模型。dCW28資訊網——每日最新資訊28at.com

dCW28資訊網——每日最新資訊28at.com

dCW28資訊網——每日最新資訊28at.com

dCW28資訊網——每日最新資訊28at.com

這一設計不僅能生成類似文檔對象模型(DOM)的結構化表示,還能通過疊加邊界框和功能標簽來引導語言模型做出更準確的用戶動作預測。dCW28資訊網——每日最新資訊28at.com

同時,GPT-4V 在使用 OmniParser 輸出后,圖標的正確標記率從 70.5% 提升至 93.8%。這些改進表明,OmniParser 能夠有效解決當前 GUI 交互模型的根本缺陷。dCW28資訊網——每日最新資訊28at.com

OmniParser 的發布不僅拓寬了智能體的應用范圍,也為開發者提供了一個強大的工具,助力創建更智能、更高效的用戶界面驅動智能體。微軟目前已在 Hugging Face 上發布 OmniParser,普及這一前沿技術,將進一步推動多模態 AI 的發展,特別是在無障礙、自動化和智能用戶輔助等領域。dCW28資訊網——每日最新資訊28at.com

附上參考地址dCW28資訊網——每日最新資訊28at.com

Microsoft AI Releases OmniParser Model on HuggingFace: A Compact Screen Parsing Module that can Convert UI Screenshots into Structured ElementsdCW28資訊網——每日最新資訊28at.com

Microsoft’s New vision based GUI agent — OmniParserdCW28資訊網——每日最新資訊28at.com

OmniParser for Pure Vision Based GUI AgentdCW28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-9349-0.html微軟開源 OmniParser 純視覺 GUI 智能體:讓 GPT-4V 秒懂屏幕截圖,可操控手機 電腦

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 智源推出全能視覺生成模型 OmniGen:支持文生圖、圖像編輯等

下一篇: GLM-4-Plus賦能“閱讀智能體”,效率飆升300%?

標簽:
  • 熱門焦點
  • 內容行業大變天,爆款全靠AI?

    出品 | 微果醬(wjam123456)作者 | 陳出木題圖 | 文心一格 AI的發展之快出乎所有人的預料,似乎一夜之間便呼嘯而來。無論是資本的風向標,抑或是生活工作的輔助、流量口,還是茶余飯
  • 茅臺的元宇宙App火了,也被罵慘了

    元宇宙從概念走向大眾生活,并不是一件簡單的事情。技術、世界觀、填充內容、載體形式,每一個環節都需要層層疊疊的邏輯。但正如賽博朋克奠基人威廉·吉布
  • 中文在線的“元宇宙”故事,資本聽膩了?

    被譽為“元宇宙”龍頭之一的中文在線,這下尷尬了。2022年1月11日,中國移動通信聯合會元宇宙產業委員會揭牌,接納涉足“元宇宙”的8家上市公司,包括中青寶、天下秀
  • AI特效、虛擬人、數字盲盒,來看看元宇宙如何融合冬奧會!

    今天是冬奧會比賽的第12天,截至目前所累計的成績,中國代表團已經取得了冬奧歷史最佳戰績。全世界的人都在關注著這場盛事,為奧運健兒吶喊助威。谷愛凌、徐夢桃、
  • 百度元宇宙希壤是什么?(附下載)

    百度元宇宙希壤是什么,最近很多人關注。還有很多人問希壤怎么下載、百度希壤怎么進入?今天小編帶你來全面了解一下?!跋H馈笔前俣扔?021年12月27日于百度AI開
  • 「國產良心」NFT嘲諷了誰?

    2月23日,一個名為「國產良心」的NFT項目被許多活躍的加密用戶注意到。該項目的官網風格尤為「不正經」,它絲毫沒有避諱自己的小作坊出身,還將「中國人不騙中國人
  • 以用戶為中心,Web3和區塊鏈如何將用戶放在首位

    競爭優勢正在改變競爭優勢是每個企業都在努力爭取的,由谷歌、Facebook和Netflix等大型科技公司主導的市場中,兩大重要類別的競爭優勢十分突出。第一個競爭優勢來
  • 對諷刺無動于衷,Nori將碳市場放在區塊鏈上

    當我們聊氣候問題的解決方案時,以太坊區塊鏈應該不是最首想到的,但這正是Nori所選擇的方案,它建立了一個引擎,鼓勵農民使用負碳耕作方法,將空氣中的碳抽出并放回地
  • 從NFT數字收藏,洞察數字音樂版權市場發展趨勢

    去年8月9日,騰訊音樂布局NFT數字收藏,在騰訊應用寶發布幻核app,騰訊音樂的提前布局示意著未來區塊鏈技術將對數字音樂版權市場進行改造升級。作者從深層測分析為
Top 主站蜘蛛池模板: 城口县| 浦东新区| 忻城县| 莱西市| 蚌埠市| 大渡口区| 广平县| 安宁市| 吉安市| 锦州市| 绥德县| 龙山县| 海晏县| 衡南县| 新竹县| 平顺县| 万载县| 龙南县| 罗定市| 专栏| 乌拉特后旗| 扶风县| 康保县| 溧水县| 融水| 祥云县| 黑水县| 应城市| 桐城市| 调兵山市| 沈阳市| 开阳县| 荔浦县| 和顺县| 甘孜县| 永善县| 苍溪县| 姜堰市| 沙田区| 交口县| 海丰县|