4月19日消息,微軟的最新研究預(yù)覽版模型雖然暫時(shí)只能供微軟研究團(tuán)隊(duì)使用,但所展示的功能令人印象深刻。這款模型被稱為VASA-1,它采用了一種全新的框架,用于創(chuàng)造逼真的說話人臉,特別適用于虛擬人物的動(dòng)畫制作。與之前類似技術(shù)相比,VASA-1在質(zhì)量和逼真度上似乎有了質(zhì)的飛躍,能夠減少嘴部動(dòng)作的偽影,與Google研究院最近推出的VLOGGER人工智能模型類似。
據(jù)ITBEAR科技資訊了解,VASA-1的工作原理是利用音頻驅(qū)動(dòng)動(dòng)畫的方法,可以根據(jù)音頻內(nèi)容生成相應(yīng)的面部表情和動(dòng)作。微軟表示,該模型不僅能夠處理面向正面的人像圖像,還能應(yīng)對(duì)不同方向拍攝的圖像,表現(xiàn)出強(qiáng)大的控制能力,包括眼睛注視的方向、頭部距離甚至情緒。
VASA-1的意義在于,它拓展了許多領(lǐng)域的應(yīng)用可能性。例如,可以用于游戲中的高級(jí)唇語同步,提升游戲的沉浸感;也可用于社交媒體視頻的虛擬化身創(chuàng)建,以及基于人工智能的電影制作,使人工智能角色看起來更加逼真。
然而,盡管VASA-1展示了出色的效果,微軟團(tuán)隊(duì)表示,目前這只是一次研究演示,并沒有公開發(fā)布的計(jì)劃,也不會(huì)提供給開發(fā)人員在產(chǎn)品中使用。
該模型令人驚訝的一點(diǎn)是,即使在訓(xùn)練數(shù)據(jù)集中沒有包含音樂內(nèi)容,它也能完美地對(duì)歌曲進(jìn)行歌詞嘴型同步,展示出出色的多功能性。它還能處理不同風(fēng)格的圖像,包括蒙娜麗莎。
雖然微軟團(tuán)隊(duì)強(qiáng)調(diào)VASA-1目前僅用于研究,但人們對(duì)它未來的潛在應(yīng)用充滿期待,甚至可能成為未來一些產(chǎn)品的一部分。
本文鏈接:http://www.www897cc.com/showinfo-45-5214-0.html微軟發(fā)布最新研究預(yù)覽版模型:VASA-1引領(lǐng)人工智能動(dòng)畫新風(fēng)潮
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: Meta發(fā)布Llama 3:開源巨頭追趕GPT-4的新嘗試
下一篇: 中國(guó)半導(dǎo)體產(chǎn)業(yè)第一季度產(chǎn)量飆升40%:成熟制程芯片市場(chǎng)地位日益穩(wěn)固