微軟 OmniParser 作為一款獨具特色的基于純視覺的 GUI 智能體,能夠精準解析和識別屏幕上可交互圖標,此前與 GPT-4V 搭配時,其識別能力便得到顯著增強,在行業內備受關注。
2 月 12 日,微軟在官方網站正式發布了 OmniParser 的最新版本 ——V2.0。這一版本實現了重大突破,它能夠將 OpenAI(4o /o1 /o3-mini)、DeepSeek(R1)、Qwen(2.5VL)和 Anthropic(Sonnet)等多種模型,巧妙轉化為可操控計算機的 AI 智能體。這意味著,開發者和用戶能夠借助更多不同類型的模型,拓展 AI 智能體的應用場景與功能邊界。
與舊版本 V1 相比,OmniParser V2 在技術層面進行了深度優化。它采用了規模更為龐大的交互元素檢測數據以及圖標功能標題數據開展訓練。如此一來,在檢測較小的可交互 UI 元素時,新版本展現出了卓越的性能。不僅準確率得到大幅提升,推理速度也顯著加快,延遲降低幅度高達 60%。
在高分辨率 Agent 基準測試 ScreenSpot Pro 中,V2 版本搭配 GPT-4o 的組合,準確率飆升至 39.6%,而 GPT-4o 原始狀態下的準確率僅為 0.8%,對比之下,V2 版本的優勢一目了然。
為了進一步推動 AI 智能體技術的發展,方便開發者更快地對不同智能體設置進行實驗,微軟還開源了 OmniTool。
本文鏈接:http://www.www897cc.com/showinfo-27-131395-0.html微軟 OmniParser 升級至 V2.0
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: 英國《在線安全法案》引爭議,科技巨頭與政府博弈升級
下一篇: SK 海力士加速推進 M15X 工廠投產