可靈AI近日通過官方公眾號正式宣布,其自主研發的全球首款統一多模態視頻生成模型——可靈視頻O1已面向全體用戶開放使用。這一突破性成果標志著視頻生成領域進入全新階段,通過整合多模態交互能力,實現了從單一功能到綜合創作的跨越式升級。
據技術白皮書披露,該模型創新性采用生成式架構底座,通過多模態視覺語言(MVL)交互框架,將圖像生成、視頻創作、文本理解等任務整合至統一輸入界面。用戶無需切換不同功能模塊,僅需在單一對話框中輸入混合指令,即可同步完成主體構建、場景渲染與細節優化。例如輸入"生成一位穿紅色漢服的女子在古風庭院中彈奏古箏的視頻,要求鏡頭從全景推近至特寫",系統可自動解析多維度要求并生成連貫畫面。
核心技術創新方面,模型引入的思維鏈(Chain-of-thought)技術顯著提升了內容邏輯性。通過模擬人類推理過程,系統能夠理解"雨天打傘"與"地面水漬"的因果關系,或"運動員起跑"與"觀眾反應"的時間順序。官方測試數據顯示,在復雜場景的事件推演任務中,模型準確率較前代提升67%,尤其在多主體交互場景中展現出更強的語義理解能力。
創作界面同步迎來重大升級,新版本支持通過自然語言對話調整畫面參數。用戶可實時修改"主體服飾顏色""背景光影效果"等200余項細節,系統將自動生成多版本方案供選擇。針對專業創作者,平臺還開放了鏡頭運動控制、幀率調節等高級功能,滿足從短視頻創作到影視級制作的不同需求。
在主體一致性控制方面,模型通過三維空間建模技術實現了跨鏡頭穩定表現。即使經歷"從遠景到特寫"或"360度環繞拍攝"等極端視角變化,主體特征仍能保持高度一致。測試案例顯示,在連續200幀的復雜運鏡中,人物面部特征識別誤差率低于0.3%,衣物褶皺、配飾細節等微觀元素亦能精準復現。該技術已應用于影視預告片制作、虛擬偶像直播等多個商業化場景。
本文鏈接:http://www.www897cc.com/showinfo-21-185945-0.html快手可靈視頻O1模型全量登場:統一多模態,開啟視頻創作新體驗
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com