5 月 13 日消息,在今日舉辦的 FORCE LINK AI 創(chuàng)新巡展?上海站上,火山引擎發(fā)布了豆包 1.5?視覺(jué)深度思考模型(Doubao-1.5-thinking-vision-pro),該模型激活參數(shù)僅 20B,但具備強(qiáng)大的多模態(tài)理解和推理能力,在 60 個(gè)公開(kāi)評(píng)測(cè)基準(zhǔn)中,有 38 個(gè)達(dá)到業(yè)界最佳表現(xiàn)(SOTA),在視頻理解、視覺(jué)推理、GUI Agent 能力等方面均處于第一梯隊(duì)。
在視頻理解領(lǐng)域,豆包 1.5?視覺(jué)深度思考模型支持動(dòng)態(tài)幀率采樣技術(shù),顯著增強(qiáng)了視頻時(shí)序定位能力。結(jié)合向量搜索功能,模型能夠精準(zhǔn)定位視頻中與文本描述相對(duì)應(yīng)的片段,為視頻內(nèi)容的深度分析和檢索提供支持。
此外,該模型新增了視頻深度思考能力。通過(guò)學(xué)習(xí)數(shù)萬(wàn)億多模態(tài)標(biāo)記數(shù)據(jù),模型積累了廣泛的視覺(jué)知識(shí),并借助強(qiáng)化學(xué)習(xí)技術(shù),大幅提升了視覺(jué)推理能力。例如,在復(fù)雜的圖形推理任務(wù)中,模型能夠自主提出假設(shè)、進(jìn)行推理檢驗(yàn),并在發(fā)現(xiàn)與假設(shè)不符時(shí),不斷反思并提出新的猜測(cè),直至得出正確答案。
值得注意的是,豆包 1.5?視覺(jué)深度思考模型還新增了 GUI Agent 能力。憑借強(qiáng)大的 GUI 定位性能,該模型能夠在 PC 端、手機(jī)端等多種不同環(huán)境中完成復(fù)雜的交互任務(wù)。例如,它可對(duì)新開(kāi)發(fā)的 App 功能進(jìn)行自動(dòng)化檢測(cè),目前這一功能已在字節(jié)跳動(dòng)多款 App 產(chǎn)品的開(kāi)發(fā)測(cè)試中進(jìn)行應(yīng)用。
注:
GUIAgent 是一種基于多模態(tài)視覺(jué)模型驅(qū)動(dòng)的人工智能系統(tǒng),能夠自動(dòng)推理并執(zhí)行 UI 交互,模擬人類(lèi)用戶(hù)的操作,如點(diǎn)擊、輸入、拖拽、讀取界面信息等,以完成人類(lèi)要求的工作任務(wù)。
目前,該模型已正式在火山方舟平臺(tái)上線。
本文鏈接:http://www.www897cc.com/showinfo-45-12843-0.html火山引擎發(fā)布豆包 1.5?視覺(jué)深度思考模型,新增 GUI Agent 能力
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 3 張照片 → 全景 3D:蘋(píng)果攜手推出革命性 AI 模型 Matrix3D,簡(jiǎn)化 3D 重建過(guò)程
下一篇: SDS 技術(shù)首次用于音頻:英偉達(dá)攜手 MIT 推 Audio-SDS,參數(shù)化控制 AI 音效生成