7 月 28 日消息,今晚,阿里開源視頻生成模型「通義萬相 Wan2.2」,此次共開源文生視頻(Wan2.2-T2V-A14B)、圖生視頻(Wan2.2-I2V-A14B)和統一視頻生成(Wan2.2-IT2V-5B)三款模型,其中文生視頻模型和圖生視頻模型均為業界首個使用 MoE 架構的視頻生成模型,總參數量為 27B,激活參數 14B;同時,首創電影美學控制系統,光影、色彩、構圖、微表情等能力媲美專業電影水平。
開發者可在 GitHub、HuggingFace、魔搭社區下載模型和代碼,企業可在阿里云百煉調用模型 API,用戶還可在通義萬相官網和通義 App 直接體驗。
據官方介紹,通義萬相 2.2 率先在視頻生成擴散模型中引入 MoE 架構,有效解決視頻生成處理 Token 過長導致的計算資源消耗大問題。Wan2.2-T2V-A14B、Wan2.2-I2V-A14B 兩款模型均由高噪聲專家模型和低噪專家模型組成,分別負責視頻的整體布局和細節完善,在同參數規模下,可節省約 50% 的計算資源消耗,在模型能力上,通義萬相 2.2 在復雜運動生成、人物交互、美學表達、復雜運動等維度上也取得了顯著提升。
Wan2.2 還首創了「電影美學控制系統」,光影、色彩、構圖、微表情等能力媲美專業電影水平。例如,用戶輸入「黃昏」、「柔光」、「邊緣光」、「暖色調」「中心構圖」等關鍵詞,模型可自動生成金色的落日余暉的浪漫畫面;使用「冷色調」、「硬光」、「平衡圖」、「低角度」的組合,則可以生成接近科幻片的畫面效果。
通義萬相還開源了一款 5B 小尺寸的統一視頻生成模型,單一模型同時支持文生視頻和圖生視頻,可在消費級顯卡部署。該模型采用了高壓縮率 3D VAE 架構,時間與空間壓縮比達到高達 4×16×16,信息壓縮率提升至 64,均實現了開源模型的最高水平,僅需 22G 顯存(單張消費級顯卡)即可在數分鐘內生成 5 秒高清視頻,是目前 24 幀每秒、720P 像素級的生成速度最快的基礎模型。
自今年 2 月以來,通義萬相已連續開源文生視頻、圖生視頻、首尾幀生視頻和全能編輯等多款模型,在開源社區的下載量已超 500 萬。
附開源地址:
GitHub:https://github.com/Wan-Video/Wan2.2
HuggingFace:https://huggingface.co/Wan-AI
魔搭社區:https://modelscope.cn/organization/Wan-AI
本文鏈接:http://www.www897cc.com/showinfo-45-15113-0.html阿里巴巴開源視頻生成模型通義萬相 Wan2.2,首創電影美學控制系統
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: Anthropic 對 Claude Pro Max 開出“限量令”:8 月 28 日起實施,影響不足 5% 訂閱者