當(dāng)前位置：首頁 > 科技 > 資訊

智源發(fā)布Emu3：原生多模態(tài)世界模型，能否一統(tǒng)圖像文本視頻？

來源：責(zé)編：時間：2024-10-22 08:07:51 68觀看

導(dǎo)讀【ITBEAR】智源研究院近期推出了全新的原生多模態(tài)世界模型——Emu3，該模型在文本、圖像和視頻三種模態(tài)數(shù)據(jù)的理解和生成上展現(xiàn)出卓越能力。其獨(dú)特之處在于，僅需基于下一個token預(yù)測，無需依賴擴(kuò)散模型或組合方法，便能實(shí)現(xiàn)

【ITBEAR】智源研究院近期推出了全新的原生多模態(tài)世界模型——Emu3，該模型在文本、圖像和視頻三種模態(tài)數(shù)據(jù)的理解和生成上展現(xiàn)出卓越能力。其獨(dú)特之處在于，僅需基于下一個token預(yù)測，無需依賴擴(kuò)散模型或組合方法，便能實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的統(tǒng)一處理。

在圖像生成任務(wù)中，Emu3的表現(xiàn)優(yōu)于SD-1.5與SDXL模型，獲得了人類偏好評測的高度認(rèn)可。同時，在視覺語言理解任務(wù)中，Emu3也展現(xiàn)出了強(qiáng)大的實(shí)力，其對于12項(xiàng)基準(zhǔn)測試的平均得分超越了LlaVA-1.6。在視頻生成任務(wù)中，Emu3同樣表現(xiàn)出色，VBench基準(zhǔn)測試得分高于OpenSora 1.2。

Emu3配備了一個強(qiáng)大的視覺tokenizer，能夠?qū)⒁曨l和圖像轉(zhuǎn)換為離散token，這些token可以與文本tokenizer輸出的離散token一同送入模型中。這一特性為Any-to-Any任務(wù)提供了更加統(tǒng)一的研究范式。

Emu3的研究結(jié)果充分證明了下一個token預(yù)測作為多模態(tài)模型范式的強(qiáng)大潛力，它不僅能實(shí)現(xiàn)超越語言本身的大規(guī)模多模態(tài)學(xué)習(xí)，還能在多模態(tài)任務(wù)中取得先進(jìn)性能。目前，Emu3已開源關(guān)鍵技術(shù)和模型，為相關(guān)研究提供了有力支持。

本文鏈接：http://www.www897cc.com/showinfo-16-126514-0.html智源發(fā)布Emu3：原生多模態(tài)世界模型，能否一統(tǒng)圖像文本視頻？

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：中國PCT國際專利申請量：連續(xù)五年穩(wěn)坐全球榜首！

下一篇：索泰辟謠：印尼工廠未量產(chǎn)RTX 5090，視頻實(shí)為4070 Ti Super

標(biāo)簽：

熱門焦點(diǎn)

vivo TWS Air開箱體驗(yàn)：真輕臻好聽

在vivo S15系列新機(jī)的發(fā)布會上，vivo的最新款真無線藍(lán)牙耳機(jī)vivo TWS Air也一同發(fā)布，本次就這款耳機(jī)新品給大家?guī)硪粋€簡單的分享。外包裝盒上，vivo TWS Air保持了vivo自家產(chǎn)
這款新興工具平臺，讓你的電腦效率翻倍

隨著信息技術(shù)的發(fā)展,我們獲取信息的渠道越來越多,但是處理信息的效率卻成為一個瓶頸。于是各種工具應(yīng)運(yùn)而生,都在爭相解決我們的工作效率問題。今天我要給大家介紹一款效率
華為開發(fā)者大會2023日程公開：開設(shè)鴻蒙HarmonyOS 4體驗(yàn)區(qū)

IT之家 7 月 31 日消息，華為今日公布了 HDC.Together 開發(fā)者大會 2023 的詳細(xì)日程。整場大會將于 8 月 4 日-6 日之間舉行，屆時將發(fā)布最新一代鴻蒙 H
3699元！iQOO Neo8 Pro頂配版今日首銷：1TB UFS 4.0同價位唯一

5月23日，iQOO推出了全新的iQOO Neo8系列，包含iQOO Neo8和iQOO Neo8 Pro兩個版本，其中標(biāo)準(zhǔn)版搭載高通驍龍8+，而Pro版更是首發(fā)搭載了聯(lián)發(fā)科天璣9200+旗艦
iQOO Neo8 Pro真機(jī)諜照曝光：天璣9200+和V1+旗艦雙芯加持

去年10月，iQOO推出了iQOO Neo7系列機(jī)型，不僅搭載了天璣9000+，而且是同價位唯一一款天璣9000+直屏旗艦，一經(jīng)上市便受到了用戶的廣泛關(guān)注。在時隔半年后，
質(zhì)感不錯！OPPO K11渲染圖曝光：旗艦IMX890傳感器首次下放

一直以來，OPPO K系列機(jī)型都保持著較為均衡的產(chǎn)品體驗(yàn)，歷來都是2K價位的明星機(jī)型，去年推出的OPPO K10和OPPO K10 Pro兩款機(jī)型憑借各自的出色配置，堪稱有
2022爆款：ROG魔霸6 冰川散熱系統(tǒng)持續(xù)護(hù)航

喜逢開學(xué)季，各大商家開始推出自己的新產(chǎn)品，進(jìn)行打折促銷活動。對于忠實(shí)的端游愛好者來說，能夠擁有一款夢寐以求的筆記本電腦是一件十分開心的事。但是現(xiàn)在的
電博會上海爾智家模擬500平大平層，還原生活空間沉浸式體驗(yàn)

電博會為了更好地讓參展觀眾真正感受到智能家居的絕妙之處，海爾智家的程傳嶺先生同樣介紹了展會上海爾智家的模擬500平大平層，還原生活空間沉浸式體驗(yàn)。程傳
榮耀Magic4 至臻版首創(chuàng)智慧隱私通話強(qiáng)勁影音系統(tǒng)

2022年第一季度臨近尾聲，在該季度內(nèi)，許多品牌陸續(xù)發(fā)布自己的最新產(chǎn)品，讓大家從全新的角度來了解當(dāng)今的手機(jī)技術(shù)。手機(jī)是電子設(shè)備中，更新迭代十分迅速的一款產(chǎn)品，基

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

智源發(fā)布Emu3：原生多模態(tài)世界模型，能否一統(tǒng)圖像文本視頻？

vivo TWS Air開箱體驗(yàn)：真輕臻好聽

這款新興工具平臺，讓你的電腦效率翻倍

華為開發(fā)者大會2023日程公開：開設(shè)鴻蒙HarmonyOS 4體驗(yàn)區(qū)

3699元！iQOO Neo8 Pro頂配版今日首銷：1TB UFS 4.0同價位唯一

iQOO Neo8 Pro真機(jī)諜照曝光：天璣9200+和V1+旗艦雙芯加持

質(zhì)感不錯！OPPO K11渲染圖曝光：旗艦IMX890傳感器首次下放

2022爆款：ROG魔霸6 冰川散熱系統(tǒng)持續(xù)護(hù)航

電博會上海爾智家模擬500平大平層，還原生活空間沉浸式體驗(yàn)

榮耀Magic4 至臻版首創(chuàng)智慧隱私通話強(qiáng)勁影音系統(tǒng)

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊