日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 資訊

智源發布Emu3:原生多模態世界模型,能否一統圖像文本視頻?

來源: 責編: 時間:2024-10-22 08:07:51 50觀看
導讀【ITBEAR】智源研究院近期推出了全新的原生多模態世界模型——Emu3,該模型在文本、圖像和視頻三種模態數據的理解和生成上展現出卓越能力。其獨特之處在于,僅需基于下一個token預測,無需依賴擴散模型或組合方法,便能實現

【ITBEAR】智源研究院近期推出了全新的原生多模態世界模型——Emu3,該模型在文本、圖像和視頻三種模態數據的理解和生成上展現出卓越能力。其獨特之處在于,僅需基于下一個token預測,無需依賴擴散模型或組合方法,便能實現多模態數據的統一處理。hr928資訊網——每日最新資訊28at.com

hr928資訊網——每日最新資訊28at.com

在圖像生成任務中,Emu3的表現優于SD-1.5與SDXL模型,獲得了人類偏好評測的高度認可。同時,在視覺語言理解任務中,Emu3也展現出了強大的實力,其對于12項基準測試的平均得分超越了LlaVA-1.6。在視頻生成任務中,Emu3同樣表現出色,VBench基準測試得分高于OpenSora 1.2。hr928資訊網——每日最新資訊28at.com

Emu3配備了一個強大的視覺tokenizer,能夠將視頻和圖像轉換為離散token,這些token可以與文本tokenizer輸出的離散token一同送入模型中。這一特性為Any-to-Any任務提供了更加統一的研究范式。hr928資訊網——每日最新資訊28at.com

hr928資訊網——每日最新資訊28at.com

Emu3的研究結果充分證明了下一個token預測作為多模態模型范式的強大潛力,它不僅能實現超越語言本身的大規模多模態學習,還能在多模態任務中取得先進性能。目前,Emu3已開源關鍵技術和模型,為相關研究提供了有力支持。hr928資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-16-126514-0.html智源發布Emu3:原生多模態世界模型,能否一統圖像文本視頻?

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 中國PCT國際專利申請量:連續五年穩坐全球榜首!

下一篇: 索泰辟謠:印尼工廠未量產RTX 5090,視頻實為4070 Ti Super

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 乌什县| 枝江市| 昭平县| 屏东市| 岑巩县| 宾川县| 灵武市| 修水县| 新泰市| 姜堰市| 莱西市| 汉中市| 海晏县| 德惠市| 丹阳市| 达日县| 麦盖提县| 阜宁县| 内江市| 龙山县| 荔波县| 民丰县| 白沙| 仁布县| 尼玛县| 蒲城县| 三台县| 潮州市| 阳泉市| 连城县| 平原县| 大宁县| 六安市| 金溪县| 南和县| 平山县| 嘉鱼县| 清镇市| 丹江口市| 长子县| 息烽县|