當(dāng)前位置：首頁 > 元宇宙 > AI

字節(jié) Seed 開源統(tǒng)一多模態(tài)理解和生成模型 BAGEL

來源：責(zé)編：時間：2025-06-04 16:57:15 40觀看

導(dǎo)讀 6 月 3 日消息，字節(jié)跳動 Seed 團隊上周宣布開源統(tǒng)一多模態(tài)理解和生成模型 BAGEL，該模型支持文本、圖像和視頻的統(tǒng)一理解和生成。BAGEL 具有 70 億個激活參數(shù)（總共 140 億個），并在大規(guī)模交錯多模態(tài)數(shù)據(jù)上進行訓(xùn)練。

6 月 3 日消息，字節(jié)跳動 Seed 團隊上周宣布開源統(tǒng)一多模態(tài)理解和生成模型 BAGEL，該模型支持文本、圖像和視頻的統(tǒng)一理解和生成。

BAGEL 具有 70 億個激活參數(shù)（總共 140 億個），并在大規(guī)模交錯多模態(tài)數(shù)據(jù)上進行訓(xùn)練。BAGEL 在標(biāo)準(zhǔn)多模態(tài)理解排行榜上超越了當(dāng)前頂級的開源 VLMs，如 Qwen2.5-VL 和 InternVL-2.5，并且提供了與專業(yè)生成器如 SD3 競爭的文本到圖像質(zhì)量。

此外，BAGEL 在經(jīng)典的圖像編輯場景中展示了比領(lǐng)先的開源模型更好的定性結(jié)果。更重要的是，它擴展到了自由形式的視覺操作、多視圖合成和世界導(dǎo)航，這些能力構(gòu)成了超出以往圖像編輯模型范圍的“世界建模”任務(wù)。

具體來看，BAGEL 基于大語言模型進行訓(xùn)練，具備基礎(chǔ)的推理和對話能力，能夠處理圖像和文本的混合輸入，并以混合格式輸出。

▲混合輸入-混合輸出

BAGEL 可生成較高質(zhì)量、逼真的圖像、視頻或圖文交錯的內(nèi)容。此外，還引入了長思維鏈 COT（Chain-of-Thought）模式，模型在生成之前可先“思考”。

▲BAGEL 通過“思考”生成了一個穿著毛衣的鱷魚玩偶

基于交錯的多模態(tài)數(shù)據(jù)預(yù)訓(xùn)練，BAGEL 自然地學(xué)會了保留視覺特征和細(xì)微細(xì)節(jié)，并且能從視頻中捕捉復(fù)雜的視覺運動，這些能力使得 BAGEL 在圖像編輯上更為高效。

▲基于同一人物形象進行圖像編輯

基于對視覺內(nèi)容和風(fēng)格的理解，BAGEL 僅使用較少的對齊數(shù)據(jù)，即可實現(xiàn)圖片的風(fēng)格切換，甚至還可轉(zhuǎn)換至不同場景中。

▲BAGEL 實現(xiàn)多種風(fēng)格遷移

此外，BAGEL 還具備世界模型的基礎(chǔ)能力，可實現(xiàn)世界導(dǎo)航、未來幀預(yù)測、3D 世界生成等更具挑戰(zhàn)性的任務(wù)，并進行不同角度的旋轉(zhuǎn)或視角切換。同時，BAGEL 還具備較強的泛化能力，不僅在各類真實場景中，還能在游戲、藝術(shù)作品、卡通動畫等場景中實現(xiàn)導(dǎo)航。

基于以上能力，BAGEL 還可通過一個統(tǒng)一的多模態(tài)接口，實現(xiàn)各項能力的復(fù)雜組合，進行多輪對話。

▲圖片剪切-智能編輯-場景轉(zhuǎn)換-風(fēng)格轉(zhuǎn)換組合功能

附 BAGEL 開源地址：

官網(wǎng)及體驗入口：

https://seed.bytedance.com/bagel

GitHub 代碼：

https://github.com/bytedance-seed/BAGEL

模型權(quán)重：

https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT

研究論文：

https://arxiv.org/pdf/2505.14683

本文鏈接：http://www.www897cc.com/showinfo-45-13401-0.html字節(jié) Seed 開源統(tǒng)一多模態(tài)理解和生成模型 BAGEL

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：任天堂《塞爾達(dá)傳說》手機伴侶應(yīng)用被指使用生成式 AI 配音

下一篇： OpenAI 更新編程工具 Codex：新增語音輸入 + 聯(lián)網(wǎng)，向 ChatGPT Plus 用戶開放

標(biāo)簽：

熱門焦點

拯救XR，蘋果力不從心

來源 | 光子星球撰文 | 文燁豪編輯 | 吳先之蘋果終于呈上了它的“答卷”。北京時間6月6日凌晨，蘋果2023年全球開發(fā)者大會（WWDC）如期舉行。作為蘋果CEO庫克口中&ld
風(fēng)口已至，多領(lǐng)域平臺融入社交元素！

在眾多領(lǐng)域平臺中，社交元素都扮演著重要角色，如直播營銷帶貨、線上配對聽歌、游戲局內(nèi)互動等。隨著元宇宙時代的來臨，社交產(chǎn)品不斷升級，社交元素推動流量變現(xiàn)，多平臺領(lǐng)域融入社交
“元宇宙”里過大年，《迷你世界》在做一場怎樣的實驗？

2021年是游戲行業(yè)不確定性急劇上升的一年。一方面游戲正風(fēng)光無限，騰訊等大廠更加密集地投資動作，讓游戲創(chuàng)投市場異常火熱，"元宇宙"概念的大放異彩，更是吸引了Netfl
搭上“谷愛凌”，“柳夜熙們”站上風(fēng)口？

作者：張琳曹楊從“永不塌房”的藝人到頻頻亮相北京冬奧會，作為元宇宙細(xì)分賽道之一的虛擬數(shù)字人又火了一把。2月7日，即谷愛凌摘得冬奧會自由式滑雪大跳臺金牌的
虛擬數(shù)字人：元宇宙的主角破圈而來

虛擬數(shù)字人市場逐步進入成熟期，商業(yè)化進程加速。1982年世界第一位虛擬歌姬林明美誕生，虛擬數(shù)字人行業(yè)經(jīng)歷了萌芽、探索、初級和成長四個階段。隨技術(shù)逐年突破，制
NFT盜竊案：為什么NFT市場被盜竊和黑客所困擾？

Block-806NFT的增長值得關(guān)注。許多人愿意為數(shù)字藝術(shù)支付數(shù)百萬美元，世界正在走向數(shù)字化。報告顯示，NFT市場和NFT收藏從2020年的1.06億美元增加到了2021年的442億
用戶可以把自己的醫(yī)療健康數(shù)據(jù)做成NFT出售給醫(yī)藥公司掙錢

你可能聽說過不可偽造的代幣，或NFTs。NFTs是數(shù)字代幣，代表完全獨特的項目的所有權(quán)；存儲在區(qū)塊鏈中并可追蹤，它們不能被修改、替換或復(fù)制。作為NFT鑄造的資產(chǎn)在數(shù)字
元宇宙收割了誰

作者：曉宇資本將元宇宙看作下一代互聯(lián)網(wǎng)的門票，畫大餅、割韭菜就成了一大選項。2021年被稱為元宇宙元年。在這一年里，先是號稱元宇宙第一股的沙盒游戲Roblox盛裝
元宇宙+劇本殺：“在異世界里當(dāng)演員”

你玩過劇本殺嗎？體驗過“元宇宙+劇本殺”嗎？2月，恒信東方推出了一款次時代劇本殺原創(chuàng)作品——《失落的王朝》。其劇本和線索以數(shù)字化資產(chǎn)打造，通過VR技術(shù)塑造了與

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

字節(jié) Seed 開源統(tǒng)一多模態(tài)理解和生成模型 BAGEL

拯救XR，蘋果力不從心

風(fēng)口已至，多領(lǐng)域平臺融入社交元素！

“元宇宙”里過大年，《迷你世界》在做一場怎樣的實驗？

搭上“谷愛凌”，“柳夜熙們”站上風(fēng)口？

虛擬數(shù)字人：元宇宙的主角破圈而來

NFT盜竊案：為什么NFT市場被盜竊和黑客所困擾？

用戶可以把自己的醫(yī)療健康數(shù)據(jù)做成NFT出售給醫(yī)藥公司掙錢

元宇宙收割了誰

元宇宙+劇本殺：“在異世界里當(dāng)演員”

最新推薦

《從營銷AIGC化到AIGC營銷化》報告發(fā)布

刷完一場元宇宙世界杯音樂盛典，我爽了

城市數(shù)字孿生標(biāo)準(zhǔn)化白皮書（2022版）

從英式拍到荷蘭拍，看傳統(tǒng)金融拍賣玩法如何玩轉(zhuǎn)NFT市場交易

以用戶為中心，Web3和區(qū)塊鏈如何將用戶放在首位

元宇宙不完全是想出來的，而是實打?qū)嵶龀鰜淼?/a>

猜你喜歡

熱門推薦

相關(guān)資訊