7月26日消息,智譜AI今日宣布對其視頻生成模型進(jìn)行了全面升級,并正式推出了新一代產(chǎn)品——CogVideoX。據(jù)悉,CogVideoX模型已在智譜清言的PC端、移動應(yīng)用端以及小程序端全面上線,所有C端用戶均可通過智譜清言的AI視頻生成功能“清影”(Ying)免費(fèi)體驗(yàn)AI文本生成視頻和圖像生成視頻的服務(wù)。
據(jù)ITBEAR科技資訊了解,CogVideoX的核心技術(shù)特點(diǎn)顯著。為解決內(nèi)容連貫性問題,智譜AI自主研發(fā)了一套高效的三維變分自編碼器結(jié)構(gòu)(3DVAE)。該結(jié)構(gòu)能夠?qū)⒃家曨l數(shù)據(jù)壓縮至原始大小的2%,顯著降低了視頻擴(kuò)散生成模型的訓(xùn)練成本和難度。同時,結(jié)合3DRoPE位置編碼模塊,該技術(shù)在時間維度上提升了幀間關(guān)系的捕捉能力,從而建立了視頻中的長期依賴關(guān)系。
在可控性方面,智譜AI打造了一款端到端的視頻理解模型,該模型能夠?yàn)榇罅恳曨l數(shù)據(jù)生成描述,增強(qiáng)了模型對文本的理解和對指令的遵循能力。這一創(chuàng)新確保了生成的視頻更加符合用戶的輸入需求,并能夠處理超長且復(fù)雜的prompt指令。
此外,CogVideoX模型采納了一種將文本、時間、空間三維一體融合的transformer架構(gòu)。該架構(gòu)摒棄了傳統(tǒng)的crossattention模塊,設(shè)計(jì)了Expert Block以實(shí)現(xiàn)文本與視頻兩種不同模態(tài)空間的對齊,并通過FullAttention機(jī)制優(yōu)化模態(tài)間的交互效果。
“清影”作為智譜AI推出的AI視頻生成功能,其主要特點(diǎn)包括快速生成、高效的指令遵循能力、內(nèi)容連貫性以及畫面調(diào)度靈活性。用戶只需30秒即可完成6秒視頻的生成,即使是復(fù)雜的prompt,“清影”也能準(zhǔn)確理解并執(zhí)行。同時,生成的視頻能夠較好地還原物理世界中的運(yùn)動過程,鏡頭也能流暢地跟隨畫面中的主體移動。
智譜大模型開放平臺bigmodel.cn也已部署了“清影”。企業(yè)和開發(fā)者可通過API調(diào)用式體驗(yàn)并使用“清影”的文本生成視頻和圖像生成視頻功能。這一舉措無疑將進(jìn)一步推動AI視頻生成技術(shù)的應(yīng)用與發(fā)展。
本文鏈接:http://www.www897cc.com/showinfo-45-6118-0.html智譜AI新推“清影”工具:30秒生成視頻,免費(fèi)試用!
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com