在AI技術日新月異的今天,國內大廠字節跳動緊跟國際步伐,于近日在GitHub平臺推出了一款面向圖形化用戶界面(GUI)的全新自動化操作模型——UI-TARS。這款模型擁有高達70億參數,巧妙地將視覺理解、文本處理、操作規劃及記憶管理等核心組件融為一體,能夠在跨平臺環境下完成復雜任務,其能力堪比人類,能夠感知界面信息、推理操作步驟并精準執行交互指令。
UI-TARS的推出,標志著字節跳動在AI智能體領域邁出了堅實的一步。通過官方公布的一段演示視頻,我們可以看到UI-TARS如何自動完成發布推文的全過程,展現了其強大的自動化處理能力。盡管目前仍處于預覽及迭代階段,需要人工輔助完成部分點擊及文案撰寫,但UI-TARS已在MacOS與Windows系統上線,為用戶提供了全新的自動化體驗。
無獨有偶,就在兩天前的1月24日,美國OpenAI公司正式推出了其首款AI智能體功能應用“Operator”。這款應用能夠模擬人類操作瀏覽器,完成購物、訂餐、論文整理等一系列復雜任務,通過融合視覺識別與高級推理的CUA模型,實現了復雜步驟的精準規劃。目前,“Operator”已向每月200美元訂閱的美國ChatGPT Pro用戶開放測試,標志著AI智能體技術正逐步走向成熟。
近年來,“AI智能體”概念持續升溫,吸引了眾多企業和研究團隊的關注。智譜推出了AutoGLM、GLM-PC等多個AI智能體應用產品;字節跳動的AI應用開發平臺扣子已發布超過200萬個智能體,引領國內AI智能體技術的發展潮流。在今年的CES展會上,英偉達CEO黃仁勛更是預言,AI智能體應用或將成為下一個價值數萬億美元的機器人產業。
AI智能體,作為一個具有智能的實體,能夠自主感知環境、做出決策并執行行動。它可以是程序、系統,也可以是機器人,能夠像有智商、有情商的“小助手”一樣,協助用戶高效完成各類任務。隨著AI技術的不斷進步,AI智能體已具備類似人類的思考和規劃能力,能夠與人類及環境進行高效交互,完成特定任務。
自2022年底ChatGPT風靡全球以來,生成式AI應用的發展便成為業界熱議的話題。斯坦福大學和谷歌的聯合研究團隊更是通過一項研究,展示了接入ChatGPT的虛擬人在虛擬小鎮Smallville中表現出的各種人類行為,進一步帶火了AI智能體概念。如今,AI智能體已在客服、編程、內容創作、知識獲取、財務、手機助手、工業制造等多個領域得到廣泛應用,展現出巨大的市場潛力和商業價值。
以OpenAI的“Operator”為例,它不僅能夠根據用戶需求捕獲屏幕畫面,制定下一步計劃,還能使用虛擬鼠標和鍵盤精確執行操作,直到任務完成或需要用戶輸入。這種能力使得AI智能體能夠成為用戶的得力助手,幫助用戶高效完成各類任務。
隨著AI智能體技術的不斷發展,越來越多的企業開始認識到AI智能體在降本增效方面的重要作用。火山引擎副總裁張鑫表示,未來企業需要通過0代碼方式快速、廣泛實現創新應用,構建自己的AI能力中心。這將有助于企業在復雜多變的數字環境中實現更高效、更智能的運營。
同時,AI技術的深度融合也正加速推動企業AI事項的落地與實踐。F5作為全球領先的多云應用交付網絡和應用安全解決方案提供商,正通過其豐富的AI和機器學習技術經驗,全面賦能企業客戶。F5亞太區首席技術官Mohan Veloo表示,未來AI應用將更加依賴于API,相關API接口也將呈現爆炸式增長。因此,如何有效利用AI大模型能力實現應用方向的創新部署,將成為企業發展的關鍵。
本文鏈接:http://www.www897cc.com/showinfo-45-10209-0.html中美大廠競逐AI智能體,萬億賽道誰將領跑?
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com