6 月 4 日消息,科技媒體 The Decoder 昨日(6 月 3 日)發布博文,報道稱谷歌 DeepMind 團隊攜手布朗大學,為視頻生成模型開發“力提示”(force prompting)技術,可以在無需 3D 模型或物理引擎的情況下,生成逼真的運動效果。
用戶只需指定力的方向和強度,就能操控 AI 生成的視頻內容,該技術支持全局力(如風吹過整個畫面)和局部力(如特定點的敲擊)兩種力量。這些力以矢量場形式輸入系統,隨后被轉化為自然流暢的運動。
研究團隊基于 CogVideoX-5B-I2V 視頻模型,加入 ControlNet 模塊處理物理控制數據,信號通過 Transformer 架構生成視頻,每段視頻包含 49 幀,僅用 4 臺 Nvidia A100 GPU 訓練一天完成。
訓練數據完全為合成:全局力數據包括 1.5 萬段不同風力下旗幟飄動的視頻;局部力數據則有 1.2 萬段滾動球體和 1.1 萬段花朵受沖擊反應的視頻。
在生成過程中,文本描述中在加入“風”或“氣泡”等物理術語后,模型會自動建立正確的力與運動關系。訓練樣本結合文本提示、起始圖像和物理力(全局力為完整矢量場,局部力為方向、位置和強度的動態信號),并通過隨機化背景、光線和視角增加多樣性。
盡管訓練數據有限,模型展現出強大的泛化能力,能適應新物體、材質和場景,甚至掌握簡單物理規則,如相同力下,輕物移動距離比重物遠。
用戶測試中,“力提示”技術在運動匹配度和真實感上優于純文本或運動路徑控制的基準模型,甚至超越依賴真實物理模擬的 PhysDreamer(僅在圖像質量上稍遜)。然而,復雜場景中仍存缺陷,例如煙霧有時無視風力,人體手臂偶爾像布料般移動。
DeepMind 首席執行官 Demis Hassabis 近期表示,新一代 AI 視頻模型(如 Veo 3)正逐步理解物理規則,不再局限于文本或圖像處理,而是開始表征世界的物理結構。他認為這是通向更通用 AI 的關鍵一步,未來 AI 可能不再僅僅依賴數據,而是能在模擬環境中通過經驗學習。
附上參考地址
Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals論文
Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control SignalsGitHub頁面
本文鏈接:http://www.www897cc.com/showinfo-45-13425-0.html無需 3D 模型 物理引擎:谷歌 DeepMind 聯合開發力提示技術,AI 生成視頻可模擬真實運動
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com