當(dāng)前位置：首頁(yè) > 元宇宙 > AI

火山引擎發(fā)布豆包 1.5?視覺(jué)深度思考模型，新增 GUI Agent 能力

來(lái)源：責(zé)編：時(shí)間：2025-05-15 09:50:37 63觀看

導(dǎo)讀 5 月 13 日消息，在今日舉辦的 FORCE LINK AI 創(chuàng)新巡展?上海站上，火山引擎發(fā)布了豆包 1.5?視覺(jué)深度思考模型（Doubao-1.5-thinking-vision-pro），該模型激活參數(shù)僅 20B，但具備強(qiáng)大的多模態(tài)理解和推理能力，在 60 個(gè)公

5 月 13 日消息，在今日舉辦的 FORCE LINK AI 創(chuàng)新巡展?上海站上，火山引擎發(fā)布了豆包 1.5?視覺(jué)深度思考模型（Doubao-1.5-thinking-vision-pro），該模型激活參數(shù)僅 20B，但具備強(qiáng)大的多模態(tài)理解和推理能力，在 60 個(gè)公開(kāi)評(píng)測(cè)基準(zhǔn)中，有 38 個(gè)達(dá)到業(yè)界最佳表現(xiàn)（SOTA），在視頻理解、視覺(jué)推理、GUI Agent 能力等方面均處于第一梯隊(duì)。

在視頻理解領(lǐng)域，豆包 1.5?視覺(jué)深度思考模型支持動(dòng)態(tài)幀率采樣技術(shù)，顯著增強(qiáng)了視頻時(shí)序定位能力。結(jié)合向量搜索功能，模型能夠精準(zhǔn)定位視頻中與文本描述相對(duì)應(yīng)的片段，為視頻內(nèi)容的深度分析和檢索提供支持。

此外，該模型新增了視頻深度思考能力。通過(guò)學(xué)習(xí)數(shù)萬(wàn)億多模態(tài)標(biāo)記數(shù)據(jù)，模型積累了廣泛的視覺(jué)知識(shí)，并借助強(qiáng)化學(xué)習(xí)技術(shù)，大幅提升了視覺(jué)推理能力。例如，在復(fù)雜的圖形推理任務(wù)中，模型能夠自主提出假設(shè)、進(jìn)行推理檢驗(yàn)，并在發(fā)現(xiàn)與假設(shè)不符時(shí)，不斷反思并提出新的猜測(cè)，直至得出正確答案。

值得注意的是，豆包 1.5?視覺(jué)深度思考模型還新增了 GUI Agent 能力。憑借強(qiáng)大的 GUI 定位性能，該模型能夠在 PC 端、手機(jī)端等多種不同環(huán)境中完成復(fù)雜的交互任務(wù)。例如，它可對(duì)新開(kāi)發(fā)的 App 功能進(jìn)行自動(dòng)化檢測(cè)，目前這一功能已在字節(jié)跳動(dòng)多款 App 產(chǎn)品的開(kāi)發(fā)測(cè)試中進(jìn)行應(yīng)用。

注：

GUIAgent 是一種基于多模態(tài)視覺(jué)模型驅(qū)動(dòng)的人工智能系統(tǒng)，能夠自動(dòng)推理并執(zhí)行 UI 交互，模擬人類(lèi)用戶(hù)的操作，如點(diǎn)擊、輸入、拖拽、讀取界面信息等，以完成人類(lèi)要求的工作任務(wù)。

目前，該模型已正式在火山方舟平臺(tái)上線。

本文鏈接：http://www.www897cc.com/showinfo-45-12843-0.html火山引擎發(fā)布豆包 1.5?視覺(jué)深度思考模型，新增 GUI Agent 能力

聲明：本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇： 3 張照片 → 全景 3D：蘋(píng)果攜手推出革命性 AI 模型 Matrix3D，簡(jiǎn)化 3D 重建過(guò)程

下一篇： SDS 技術(shù)首次用于音頻：英偉達(dá)攜手 MIT 推 Audio-SDS，參數(shù)化控制 AI 音效生成

標(biāo)簽：

熱門(mén)焦點(diǎn)

元宇宙的文旅賽道，還能如何發(fā)力？

來(lái)源：X增強(qiáng)現(xiàn)實(shí)蘋(píng)果推出Vision Pro，為XR行業(yè)注入一劑強(qiáng)心針。而在蘋(píng)果開(kāi)發(fā)者大會(huì)上迪士尼CEO鮑勃·艾格在宣布迪士尼與蘋(píng)果達(dá)成合作，其Disney+流媒體服務(wù)將于Vision Pro
如何對(duì)一款 NFT 項(xiàng)目進(jìn)行價(jià)值評(píng)估？

原文作者 | Othmane Senhaji Rhazi，Web 3 企業(yè)家.編譯整理 | 黑米@白澤研究院我之所以成為一位大力倡導(dǎo) Web3 和 NFT 領(lǐng)域的企業(yè)家，因?yàn)槲蚁嘈盼覀冋谝?jiàn)證社會(huì)
“虛擬人”角斗場(chǎng)，基于“硬實(shí)力”下的人性平衡法則？

在打工人“反內(nèi)卷”的當(dāng)下，一眾虛擬人卻“內(nèi)卷”了起來(lái)。從北京春晚虛擬人蘇小妹與劉宇演繹歌舞《星河入夢(mèng)》，央美畢業(yè)的虛擬人夏語(yǔ)冰登上央視節(jié)目《對(duì)話》，湖南
元宇宙“概念股”集體崩塌，背后究竟發(fā)生了什么？

近期，Roblox和Meta公布了第四季度的財(cái)務(wù)報(bào)告，在財(cái)報(bào)發(fā)布一日后，股價(jià)大跌。作為市值一度超過(guò)1萬(wàn)億美元的世界第六大公司Meta，股價(jià)大跌4%，市值降至5650億美元，甚至跌出
數(shù)字經(jīng)濟(jì)、數(shù)據(jù)要素與數(shù)字治理

深入理解數(shù)字經(jīng)濟(jì)與數(shù)據(jù)要素，有利于更準(zhǔn)確理解和把握數(shù)字治理的基本規(guī)律，構(gòu)建面向未來(lái)的健康的數(shù)字治理體系，也才能更好地理解元宇宙的治理框架。一、數(shù)字經(jīng)濟(jì)
Web 3如何改變傳統(tǒng)HR

互聯(lián)網(wǎng)自誕生以來(lái)，經(jīng)歷了三次迭代。Web1是第一階段，包括ISP服務(wù)器上的個(gè)人網(wǎng)頁(yè)或免費(fèi)的虛擬主機(jī)服務(wù)。然后Web2出現(xiàn)了，它引入了動(dòng)態(tài)的用戶(hù)生成內(nèi)容、互操作性、增
Meta 在衰落嗎？

扎克伯格已經(jīng)很久沒(méi)有出現(xiàn)在公眾視野里了，近日，他罕見(jiàn)的接受播客采訪，在兩個(gè)小時(shí)的時(shí)間里暢談了Meta、Facebook、Instagram、元宇宙的未來(lái)。正方觀點(diǎn)：是的阿倫·達(dá)
NFT行業(yè)的三大區(qū)塊鏈之一引起了Snoop Dogg的強(qiáng)烈興趣，究竟有何潛力？

Block-810多個(gè)區(qū)塊鏈吸引了希望創(chuàng)建單個(gè)NFT或整個(gè)集合的用戶(hù)的注意。Tezos是其中因其低費(fèi)用和低碳排放方式而備受贊譽(yù)的區(qū)塊鏈，就連Snoop Dogg也希望通過(guò)公開(kāi)他
3月份值得關(guān)注的5個(gè)NFT項(xiàng)目

2021年，我們見(jiàn)證了一個(gè)新的創(chuàng)造者經(jīng)濟(jì)的誕生。它是在區(qū)塊鏈上誕生的。自從NFT成為流行文化的中心舞臺(tái)以來(lái)，有些藝術(shù)家們已經(jīng)成為了NFT的超級(jí)明星，在幾個(gè)月的時(shí)間

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁(yè)

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

火山引擎發(fā)布豆包 1.5?視覺(jué)深度思考模型，新增 GUI Agent 能力

元宇宙的文旅賽道，還能如何發(fā)力？

如何對(duì)一款 NFT 項(xiàng)目進(jìn)行價(jià)值評(píng)估？

“虛擬人”角斗場(chǎng)，基于“硬實(shí)力”下的人性平衡法則？

元宇宙“概念股”集體崩塌，背后究竟發(fā)生了什么？

數(shù)字經(jīng)濟(jì)、數(shù)據(jù)要素與數(shù)字治理

Web 3如何改變傳統(tǒng)HR

Meta 在衰落嗎？

NFT行業(yè)的三大區(qū)塊鏈之一引起了Snoop Dogg的強(qiáng)烈興趣，究竟有何潛力？

3月份值得關(guān)注的5個(gè)NFT項(xiàng)目

最新推薦

亞馬遜AIGC全家桶來(lái)襲，巨頭AI大亂戰(zhàn)都有什么殺手锏

【量子位】虛擬數(shù)字人深度產(chǎn)業(yè)報(bào)告 | 元宇宙Meta洞見(jiàn)

萬(wàn)字專(zhuān)訪Vitalik Buterin：以太坊將成為主流和最安全的基礎(chǔ)層

紐約街頭出現(xiàn)NFT自動(dòng)販賣(mài)機(jī)

NFT也有黃牛？這家公司專(zhuān)門(mén)對(duì)付外掛作弊機(jī)器人

FTX 加密貨幣交易所開(kāi)始向游戲公司提供加密服務(wù)

猜你喜歡

熱門(mén)推薦

相關(guān)資訊