10 月 12 日消息,由快手科技、北京大學(xué)和北京郵電大學(xué)聯(lián)合組建的研究團(tuán)隊(duì)推出 Pyramid Flow 文生視頻模型,用戶在輸入文本之后,即可生成最長(zhǎng) 10 秒、分辨率高達(dá) 1280x768、幀率 24fps 的高質(zhì)量視頻。
Pyramid Flow 文生視頻模型主要面向開(kāi)發(fā)者、藝術(shù)家和創(chuàng)作者等,提供更高效、更靈活的視頻生成解決方案,目前已經(jīng)在 Hugging Face 平臺(tái)上線,并完全開(kāi)源。
查詢官方介紹,附上 Pyramid Flow 的核心特點(diǎn)如下:
高效生成:Pyramid Flow 采用新技術(shù),通過(guò)統(tǒng)一 AI 模型分階段生成視頻,大多數(shù)階段為低分辨率,只有最后階段為全分辨率。這種“金字塔流匹配”方法保持了視頻的高視覺(jué)質(zhì)量前提下,大幅降低了計(jì)算成本,tokens 數(shù)量是傳統(tǒng) diffusion 模型的四分之一。
快速推理:在推理過(guò)程中,該模型可以在 56 秒內(nèi)生成一個(gè) 5 秒、384p 的視頻,速度媲美許多全序列 diffusion 模型,甚至更快。
開(kāi)源和商業(yè)使用:Pyramid-Flow 在 MIT 許可證下發(fā)布,允許廣泛的使用,包括商業(yè)應(yīng)用、修改和再分發(fā),吸引了希望將模型集成到專有系統(tǒng)中的開(kāi)發(fā)者和公司。
附上參考地址
Pyramidal Flow Matching for Efficient Video Generative Modeling
New high quality AI video generator Pyramid Flow launches — and it’s fully open source!
Hugging Face
Github
Pyramidal Flow Matching for Efficient Video Generative Modeling
本文鏈接:http://www.www897cc.com/showinfo-45-9072-0.html快手聯(lián)合推出 Pyramid Flow 開(kāi)源文生視頻 AI 模型:最高 10 秒 768P@24fps,創(chuàng)新金字塔流匹配讓推理 tokens 降至 1 4
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 上海交大聯(lián)合開(kāi)發(fā) AI 系統(tǒng),首次實(shí)現(xiàn)孕前精準(zhǔn)預(yù)測(cè)流產(chǎn)風(fēng)險(xiǎn)