近日,視頻編輯技術領域迎來了一次革命性的進展,通義萬相正式宣布將其創新的視頻編輯模型VACE進行開源。此次推出的VACE包含兩個版本,Wan2.1-VACE-1.3B支持480P分辨率的視頻處理,而更高規格的Wan2.1-VACE-14B則進一步支持到720P分辨率,為用戶提供更多選擇。
VACE的問世,徹底顛覆了傳統的視頻創作模式。用戶無需再在各種模型和工具之間來回切換,僅憑VACE即可實現從文字生成視頻、圖像參考生成、局部編輯到視頻擴展等一系列操作,極大地提升了創作的便捷性和效率。這一站式視頻創作體驗,讓視頻編輯變得更加靈活和高效。
VACE的核心競爭力在于其強大的可控重繪能力。通過基于人體姿態、運動光流、結構保持、空間運動和著色等多種控制生成技術,VACE能夠輕松實現視頻生成后的細致調整。它還支持基于主體和背景參考的視頻生成,使得調整人物姿態、動作軌跡或場景布局等操作變得易如反掌。這一能力的背后,是VACE先進的多模態輸入機制。
VACE的多模態輸入機制將文本、圖像、視頻、Mask和控制信號等多種輸入形式整合到一個統一的系統中。無論是圖像輸入中的物體參考圖或視頻幀,還是視頻輸入中的抹除、局部擴展等操作,VACE都能應對自如。用戶還可以通過0/1二值信號來指定編輯區域,并通過深度圖、光流、布局、灰度、線稿和姿態等控制信號來進一步精確控制。
VACE不僅支持對視頻內容的替換、增加和刪除等操作,還能在時間維度上根據任意片段或首尾幀補全整個視頻時長。在空間維度上,VACE同樣表現出色,能夠對畫面邊緣或背景區域進行擴展生成,如背景替換功能,可以在保留主體不變的前提下,根據Prompt更換背景環境。這些功能的實現,得益于VACE強大的多模態輸入模塊和Wan2.1的卓越生成能力。
更VACE還支持多種單任務能力的自由組合,打破了傳統專家模型各自為戰的限制。作為統一模型,VACE能夠自然融合文生視頻、姿態控制、背景替換、局部編輯等原子能力,無需為單一功能單獨訓練新模型。這種靈活組合機制不僅簡化了創作流程,還極大地拓展了AI視頻生成的創意邊界。
例如,通過組合圖片參考與主體重塑功能,VACE可以實現視頻中物體的替換;通過組合運動控制與首幀參考功能,則可以實現靜態圖片的姿態控制。還可以將圖片參考、首幀參考、背景擴展與時長延展功能相結合,將豎版圖拓展為橫屏視頻,并在其中加入參考圖片中的元素。這些功能的實現,都得益于VACE提出的靈活統一的輸入范式——視頻條件單元VCU。
VCU將多模態的各類上下文輸入總結為文本、幀序列、mask序列三大形態,從而在輸入形式上統一了四類視頻生成與編輯任務。VCU的幀序列和Mask序列在數學上可以相互疊加,為多任務的自由組合創造了有利條件。在技術實現方面,VACE需要解決的一大難題是如何將多模態輸入統一編碼為擴散Transformer可處理的token序列。為此,VACE對VCU輸入中的frame序列進行概念解耦,并通過隱空間編碼和可訓練參數映射等步驟,成功將多模態輸入轉化為DiT的token序列。
在訓練策略上,VACE對比了全局微調與上下文適配器微調兩種方案,并最終選擇了收斂速度更快且能避免基礎能力丟失風險的上下文適配器微調方法。通過定量評測可以看出,相比1.3Bpreview版本,本次開源的VACE系列模型在多個關鍵指標上均有顯著提升。
對于廣大開發者而言,VACE的開源無疑是一個巨大的福音。他們可以通過GitHub(https://github.com/Wan-Video/Wan2.1)、魔搭(https://modelscope.cn/organization/Wan-AI)、Hugging Face(https://huggingface.co/Wan-AI)等平臺獲取VACE的源代碼和模型資源,并在國內站(https://tongyi.aliyun.com/wanxiang/)和國際站(https://wan.video)上獲取更多信息和支持。
舉報 0收藏 0打賞 0評論 0分享 0 更多>同類資訊小馬智行無人駕駛測試車意外起火,車身變形,起火原因待查!05-15本文鏈接:http://www.www897cc.com/showinfo-16-149919-0.html阿里通義萬相VACE開源:視頻編輯迎來一站式創新模型
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com