隨著 AI 技術(shù)的快速發(fā)展,AI 已從過去的感知 AI、生成式 AI,快速邁入 Agentic AI 時(shí)代。AI 正在進(jìn)化出端到端的自主決策和執(zhí)行能力,走向核心生產(chǎn)環(huán)節(jié)。
火山引擎總裁譚待
今天,在 FORCE LINK AI 創(chuàng)新巡展?杭州站,火山引擎公布了模型、Agent 工具、云基礎(chǔ)設(shè)施的最新進(jìn)展,旨在幫助企業(yè)更快、更省地構(gòu)建和部署 Agent 應(yīng)用:發(fā)布豆包 1.5?深度思考模型,升級(jí)豆包?文生圖模型 3.0、豆包?視覺理解模型。同時(shí),面向 Agent 服務(wù),發(fā)布 OS Agent 解決方案、GUI Agent 大模型 —— 豆包 1.5?UI-TARS 模型;面向大規(guī)模推理,發(fā)布 AI 云原生?ServingKit 推理套件。
截至 2025 年 3 月底,豆包大模型日均 tokens 調(diào)用量已超過 12.7 萬億,是 2024 年 12 月的 3 倍,是一年前剛剛發(fā)布時(shí)的 106 倍。IDC 報(bào)告顯示,2024 年中國(guó)公有云大模型調(diào)用量激增,火山引擎以 46.4% 的市場(chǎng)份額位居中國(guó)市場(chǎng)第一。
深度思考模型能夠讓 AI 模擬人類的思維過程,對(duì)復(fù)雜問題進(jìn)行精準(zhǔn)分析和邏輯推導(dǎo)。
全新發(fā)布的豆包 1.5?深度思考模型,在數(shù)學(xué)、代碼、科學(xué)等專業(yè)領(lǐng)域推理任務(wù)中表現(xiàn)出色,已經(jīng)達(dá)到或接近全球第一梯隊(duì)水平;在創(chuàng)意寫作等非推理任務(wù)中,模型也展示出優(yōu)秀的泛化能力,能夠勝任更廣泛和復(fù)雜的使用場(chǎng)景。
為了提升模型的通用能力,模型團(tuán)隊(duì)優(yōu)化了數(shù)據(jù)處理策略,把可驗(yàn)證數(shù)據(jù)與創(chuàng)意性數(shù)據(jù)進(jìn)行融合處理,滿足各類任務(wù)的需求。此外,大規(guī)模強(qiáng)化學(xué)習(xí)是訓(xùn)練推理模型的關(guān)鍵技術(shù),通過采用創(chuàng)新的雙軌獎(jiǎng)勵(lì)機(jī)制,兼顧“對(duì)錯(cuò)分明”和“見仁見智”的任務(wù),有效實(shí)現(xiàn)了算法的可靠?jī)?yōu)化。
豆包 1.5?深度思考模型采用 MoE 架構(gòu),總參數(shù)為 200B,激活參數(shù)僅 20B,具備顯著的訓(xùn)練和推理成本優(yōu)勢(shì)?;诟咝惴?,豆包 1.5?深度思考模型在提供行業(yè)極高并發(fā)承載能力的同時(shí),實(shí)現(xiàn) 20 毫秒極低延遲。
在解決生活生產(chǎn)中的具體問題時(shí),大模型要能夠查詢互聯(lián)網(wǎng)信息,進(jìn)行多輪搜索和思考。與其他推理模型“先搜索再思考”的模式不同,豆包 App 基于豆包 1.5?深度思考模型進(jìn)行了定向訓(xùn)練,可以“邊想邊搜”。
例如,讓豆包 App 推薦露營(yíng)裝備:一對(duì)夫妻帶兩個(gè)孩子去露營(yíng),溫度低,有雨,希望把裝備買齊,預(yù)算 4,000 元以內(nèi),還要兼顧便攜性和安全性。豆包 1.5?深度思考模型可以拆解每個(gè)具體需求的注意事項(xiàng),規(guī)劃信息,然后經(jīng)過 3 輪搜索,給出了預(yù)算范圍內(nèi)、細(xì)致周到的推薦。
此外,豆包 1.5?深度思考模型還具備視覺理解能力,可以像人類一樣,不光基于文字思考,更能基于所見畫面思考,思考更立體,讓模型同時(shí)擁有“大腦”和“眼睛”。
更好的模型性能、更低的延遲、加上視覺推理能力,將為深度思考模型打開更廣泛的應(yīng)用空間、解決更復(fù)雜的問題。即日起,企業(yè)用戶可以在火山方舟平臺(tái)使用豆包 1.5?深度思考模型。
此次全新升級(jí)的豆包?文生圖模型 3.0,能夠?qū)崿F(xiàn)更好的文字排版表現(xiàn)、實(shí)拍級(jí)的圖像生成效果,以及 2K 的高清圖片生成方式??梢詮V泛應(yīng)用于影視、海報(bào)、繪畫、玩偶設(shè)計(jì)等營(yíng)銷、電商、設(shè)計(jì)場(chǎng)景。
小字與長(zhǎng)文本生成、排版更美觀
在最新的文生圖領(lǐng)域權(quán)威榜單 Artificial Analysis 競(jìng)技場(chǎng)中,豆包?文生圖 3.0 模型已超越業(yè)界諸多主流模型,排名全球第一梯隊(duì)。
新版本的豆包?視覺理解模型具備更強(qiáng)的視覺定位能力,支持多目標(biāo)、小目標(biāo)、通用目標(biāo)的框定位和點(diǎn)定位,并支持定位計(jì)數(shù)、描述定位內(nèi)容、3D 定位。可應(yīng)用于線下門店的巡檢場(chǎng)景、GUI agent、機(jī)器人訓(xùn)練、自動(dòng)駕駛訓(xùn)練等。
同時(shí),新版本在視頻理解能力上也有大幅提升,比如記憶、總結(jié)理解、速度感知、長(zhǎng)視頻理解等。豆包?視覺理解模型結(jié)合向量搜索,可直接對(duì)視頻進(jìn)行語義搜索,廣泛適用于安防、家庭看護(hù)等商業(yè)化場(chǎng)景。
更強(qiáng)的模型為我們打開了更廣闊的應(yīng)用空間。未來,AI Agent 將同時(shí)在“應(yīng)用 Agent”和“OS Agent”兩個(gè)方向上并行發(fā)展。
應(yīng)用 Agent 具備更強(qiáng)的專業(yè)性,如客服 Agent、數(shù)據(jù) Agent、代碼 Agent 等,可以專注于完成特定領(lǐng)域的任務(wù)。
比如在代碼 Agent 領(lǐng)域,相比于傳統(tǒng)的 AI 插件產(chǎn)品,國(guó)內(nèi)首個(gè) AI IDE(AI 原生的集成開發(fā)環(huán)境工具)——Trae 可以讓開發(fā)者和 AI 更智能的協(xié)作,實(shí)現(xiàn)軟件開發(fā)的交付化(交付軟件而不僅是代碼)、智能化(意圖理解-自主規(guī)劃-調(diào)用工具-自主開發(fā))、協(xié)作化(與用戶在各個(gè)維度上進(jìn)行協(xié)作)。
OS Agent 則擁有跨場(chǎng)景的通用性和靈活性,能夠直接操作瀏覽器、電腦、手機(jī)或其他 Agent,完成復(fù)雜任務(wù)。今年 Manus 等通用 Agent 的火爆也點(diǎn)燃了市場(chǎng)對(duì) OS Agent 的熱情。
大會(huì)上,火山引擎正式發(fā)布 OS Agent 解決方案,未來兩周將陸續(xù)上線火山引擎官網(wǎng)。
該解決方案通過火山引擎 veFaaS 平臺(tái)對(duì)豆包大模型能力進(jìn)行封裝,可以讓企業(yè)和開發(fā)者輕松構(gòu)建輕量級(jí)的 Code use 和 Browser use。而針對(duì)任務(wù)相對(duì)復(fù)雜的 Computer Use 和 Mobile Use Agent,則可以通過 ECS 或云手機(jī)等調(diào)用豆包 1.5?UI-TARS 模型,驅(qū)動(dòng)圖形用戶界面交互,精準(zhǔn)識(shí)別用戶的任務(wù)需求,進(jìn)行感知、自主推理并準(zhǔn)確行動(dòng)。
想做出好的 Agent 同樣離不開好的大模型。針對(duì)復(fù)雜的 OS Agent,火山引擎正式發(fā)布 GUI Agent 大模型 —— 豆包 1.5?UI-TARS 模型。該模型將屏幕視覺理解、邏輯推理、界面元素定位和操作整合在單一模型中,突破了傳統(tǒng)自動(dòng)化工具依賴預(yù)設(shè)規(guī)則的局限。目前,豆包 1.5?UI-TARS 模型已在火山方舟平臺(tái)上線。
好的模型和工具能夠加速 Agent 的落地,但 Agent 也會(huì)帶來更大量的推理消耗,因此 AI 時(shí)代需要更好的云原生架構(gòu)來支持。
為此,火山引擎推出 ServingKit 推理套件,幫助企業(yè)實(shí)現(xiàn)模型的快速部署、推理優(yōu)化、運(yùn)維可觀測(cè)。
ServingKit 推理套件可在 2 分鐘內(nèi)完成 671B DeepSeek R1 下載和預(yù)熱,13 秒完成推理引擎的加載。
同時(shí),為了降低推理過程中的時(shí)延、提高資源利用率,火山引擎 EIC 將KV cache 命中率提高了 10 倍,在 100% cache 命中場(chǎng)景下TPS 吞吐量可提高至 5 倍以上;而通過對(duì)算子、AI 網(wǎng)關(guān)、VKE 編排調(diào)度的優(yōu)化和升級(jí),可以大幅度降低 GPU 消耗。
本文鏈接:http://www.www897cc.com/showinfo-26-144987-0.html豆包 1.5?深度思考模型發(fā)布!效果好、低延遲、多模態(tài)
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 英偉達(dá) CEO 黃仁勛:堅(jiān)定不移服務(wù)中國(guó)市場(chǎng)
下一篇: 聯(lián)想智會(huì)三大場(chǎng)景解決方案亮相 InfoComm 展,三包 plus 服務(wù)升級(jí) 3.0