當(dāng)前位置：首頁 > 元宇宙 > AI

一張照片、一段聲音秒生超逼真視頻！南大等提出全新框架，口型動作精準(zhǔn)還原

來源：責(zé)編：時間：2023-12-18 17:35:12 312觀看

導(dǎo)讀新智元報道編輯：潤好困【新智元導(dǎo)讀】最近，來自南大等機(jī)構(gòu)的研究人員開發(fā)了一個通用的框架，用一段音頻就能讓照片上的頭像講多國語言。不論是頭部動作還是嘴型都非常自然，看到很多不錯的一段音頻 + 一張照片，瞬間

新智元報道

編輯：潤好困

【新智元導(dǎo)讀】最近，來自南大等機(jī)構(gòu)的研究人員開發(fā)了一個通用的框架，用一段音頻就能讓照片上的頭像講多國語言。不論是頭部動作還是嘴型都非常自然，看到很多不錯的

一段音頻 + 一張照片，瞬間照片里的人就能開始講話了。

生成的講話動畫不但口型和音頻能夠無縫對齊，面部表情和頭部姿勢都非常自然而且有表現(xiàn)力。

而且支持的圖像風(fēng)格也非常的多樣，除了一般的照片，卡通圖片，證件照等生成的效果都非常自然。

再加上多語言的支持，瞬間照片里的人物就活了過來，張嘴就能飆外語。

這是由來自南京大學(xué)等機(jī)構(gòu)的研究人員提出的一個通用框架 ——VividTalk，只需要語音和一張圖片，就能生成高質(zhì)量的說話視頻。

論文地址：https://arxiv.org/ abs / 2312.01841

這個框架是一個由音頻到網(wǎng)格生成，和網(wǎng)格到視頻生成組成的兩階段框架。

在第一階段，考慮面部運(yùn)動和 blendshape 分布之間的一對多映射，利用 blendshape 和 3D 頂點(diǎn)作為中間表征，其中 blendshape 提供粗略運(yùn)動，頂點(diǎn)偏移描述細(xì)粒度嘴唇運(yùn)動。

此外，還采用了基于多分支 Transformer 網(wǎng)絡(luò)，以充分利用音頻上下文來建模與中間表征的關(guān)系。

為了更合理地從音頻中學(xué)習(xí)剛性頭部運(yùn)動，研究人員將此問題轉(zhuǎn)化為離散有限空間中的代碼查詢?nèi)蝿?wù)，并構(gòu)建具有重建和映射機(jī)制的可學(xué)習(xí)頭部姿勢代碼本。

之后，學(xué)習(xí)到的兩個運(yùn)動都應(yīng)用于參考標(biāo)識，從而產(chǎn)生驅(qū)動網(wǎng)格。

在第二階段，基于驅(qū)動網(wǎng)格和參考圖像，渲染內(nèi)表面和外表面（例如軀干）的投影紋理，從而全面建模運(yùn)動。

然后設(shè)計(jì)一種新穎的雙分支運(yùn)動模型來模擬密集運(yùn)動，將其作為輸入發(fā)送到生成器，以逐幀方式合成最終視頻。

VividTalk 可以生成具有表情豐富的面部表情和自然頭部姿勢的口型同步頭部說話視頻。

如下表所示，視覺結(jié)果和定量分析都證明了新方法在生成質(zhì)量和模型泛化方面的優(yōu)越性。

框架實(shí)現(xiàn)方法

給定音頻序列和參考面部圖像作為輸入，新方法可以生成具有不同面部表情和自然頭部姿勢的頭部說話視頻。

VividTalk 框架由兩個階段組成，分別稱為音頻到網(wǎng)格生成和網(wǎng)格到視頻生成。

音頻到網(wǎng)格生成

這一階段的目標(biāo)是根據(jù)輸入音頻序列和參考面部圖像生成 3D 驅(qū)動的網(wǎng)格。

具體來說，首先利用 FaceVerse 來重建參考面部圖像。

接下來，從音頻中學(xué)習(xí)非剛性面部表情運(yùn)動和剛性頭部運(yùn)動來驅(qū)動重建的網(wǎng)格。

為此，研究人員提出了多分支 BlendShape 和頂點(diǎn)偏移生成器以及可學(xué)習(xí)的頭部姿勢代碼本。

BlendShape 和頂點(diǎn)偏移生成器

學(xué)習(xí)通用模型來生成準(zhǔn)確的嘴部動作和具有特定人風(fēng)格的富有表現(xiàn)力的面部表情在兩個方面具有挑戰(zhàn)性：

1）第一個挑戰(zhàn)是音頻運(yùn)動相關(guān)性問題。由于音頻信號與嘴部運(yùn)動最相關(guān)，因此很難根據(jù)音頻對非嘴部運(yùn)動進(jìn)行建模。

2）從音頻到面部表情動作的映射自然具有一對多的屬性，這意味著相同的音頻輸入可能有不止一種正確的動作模式，從而導(dǎo)致沒有個人特征的面部形象。

為了解決音頻運(yùn)動相關(guān)性問題，研究人員使用 blendshape 和頂點(diǎn)偏移作為中間表征，其中 blendshape 提供全局粗粒度的面部表情運(yùn)動，而與嘴唇相關(guān)的頂點(diǎn)偏移提供局部細(xì)粒度的嘴唇運(yùn)動。

對于缺乏面部特征的問題，研究人員提出了一種基于多分支 transformer 的生成器來單獨(dú)建模每個部分的運(yùn)動，并注入特定于主題的風(fēng)格以保持個人特征。

可學(xué)習(xí)的頭部姿勢密碼本

頭部姿勢是影響頭部說話視頻真實(shí)感的另一個重要因素。然而，直接從音頻中學(xué)習(xí)它并不容易，因?yàn)樗鼈冎g的關(guān)系很弱，這會導(dǎo)致不合理和不連續(xù)的結(jié)果。

受到之前研究的啟發(fā)，利用離散碼本作為先驗(yàn)，即使在輸入降級的情況下也能保證高保真生成。

研究人員建議將此問題轉(zhuǎn)化為離散且有限頭部姿勢空間中的代碼查詢?nèi)蝿?wù)，并精心設(shè)計(jì)了兩階段訓(xùn)練機(jī)制，第一階段構(gòu)建豐富的頭部姿勢代碼本，第二階段將輸入音頻映射到碼本生成最終結(jié)果，如下圖所示。

網(wǎng)格到視頻生成

如下圖所示，研究人員提出了雙分支 motionvae 來對 2D 密集運(yùn)動進(jìn)行建模，該運(yùn)動將作為生成器的輸入來合成最終視頻。

將 3D 域運(yùn)動直接轉(zhuǎn)換為 2D 域運(yùn)動既困難又低效，因?yàn)榫W(wǎng)絡(luò)需要尋找兩個域運(yùn)動之間的對應(yīng)關(guān)系以更好地建模。

為了提高網(wǎng)絡(luò)的性能并獲得進(jìn)一步的性能，研究人員借助投影紋理表示在 2D 域中進(jìn)行這種轉(zhuǎn)換。

如上圖所示，在面部分支中，參考投影紋理 P T 和驅(qū)動的投影紋理 P Tare 連接并饋入編碼器，然后輸入 MLP，輸出 2D 面部運(yùn)動圖。

為了進(jìn)一步增強(qiáng)嘴唇運(yùn)動并更準(zhǔn)確地建模，研究人員還選擇與嘴唇相關(guān)的標(biāo)志并將其轉(zhuǎn)換為高斯圖，這是一種更緊湊、更有效的表示。

然后，沙漏網(wǎng)絡(luò)將減去的高斯圖作為輸入并輸出 2D 嘴唇運(yùn)動，該運(yùn)動將與面部運(yùn)動連接并解碼為密集運(yùn)動和遮擋圖。

最后，研究人員根據(jù)之前預(yù)測的密集運(yùn)動圖對參考圖像進(jìn)行變形，獲得變形圖像，該變形圖像將與遮擋圖一起作為生成器的輸入，逐幀合成最終視頻。

實(shí)驗(yàn)效果

數(shù)據(jù)集

HDTF 是一個高分辨率視聽數(shù)據(jù)集，包含 346 個主題的超過 16 小時的視頻。VoxCeleb 是另一個更大的數(shù)據(jù)集，涉及超過 10 萬個視頻和 1000 個身份。

研究人員首先過濾兩個數(shù)據(jù)集以刪除無效數(shù)據(jù)，例如音頻和視頻不同步的數(shù)據(jù)。

然后裁剪視頻中的人臉區(qū)域并將其大小調(diào)整為 256×256。

最后，將處理后的視頻分為 80％、10％、10％，這將用于用于培訓(xùn)、驗(yàn)證和測試。

實(shí)施細(xì)節(jié)

在實(shí)驗(yàn)中，研究人員使用 FaceVerse 這種最先進(jìn)的單圖像重建方法來恢復(fù)視頻并獲得用于監(jiān)督的地面實(shí)況混合形狀和網(wǎng)格。

在訓(xùn)練過程中，Audio-To-Mesh 階段和 Mesh-To-Video 階段是分開訓(xùn)練的。

具體來說，音頻到網(wǎng)格階段的 BlendShape 和頂點(diǎn)偏移生成器以及可學(xué)習(xí)頭部姿勢代碼本也分別進(jìn)行訓(xùn)練。

在推理過程中，研究人員的模型可以通過級聯(lián)上述兩個階段以端到端的方式工作。

對于優(yōu)化，使用 Adam 優(yōu)化器，兩個階段的學(xué)習(xí)率分別為 1×10 和 1×10。在 8 個 NVIDIA V100 GPU 上的總訓(xùn)練時間為 2 天。

與 SOTA 的比較

可以看到，研究人員提出的方法可以生成高質(zhì)量的頭部說話視頻，具有精確的唇形同步和富有表現(xiàn)力的面部運(yùn)動。

相比之下：

SadTalker 無法生成準(zhǔn)確的細(xì)粒度嘴唇運(yùn)動，并且視頻質(zhì)量更低。

TalkLip 產(chǎn)生模糊結(jié)果，并將膚色風(fēng)格改為略黃，在一定程度上丟失了身份信息。

MakeItTalk 無法生成準(zhǔn)確的嘴形，尤其是在跨身份配音設(shè)置中。

Wav2Lip 傾向于合成模糊的嘴部區(qū)域，并在輸入單個參考圖像時輸出具有靜態(tài)頭部姿勢和眼球運(yùn)動的視頻。

PC-AVS 需要驅(qū)動視頻作為輸入，并努力保存身份。

定量比較

如下表所示，新方法在圖像質(zhì)量和身份保留方面表現(xiàn)更好，這通過較低的 FID 和較高的 CSIM 指標(biāo)反映出來。

由于新穎的可學(xué)習(xí)密碼本機(jī)制，新方法生成的頭部姿勢也更加多樣化和自然。

雖然新方法的 SyncNet 分?jǐn)?shù)低于 Wav2Lip，但可以驅(qū)動使用單個音頻而不是視頻的參考圖像并生成更高質(zhì)量的幀。

參考資料：

https://humanaigc.github.io/vivid-talk/

本文來自微信公眾號：新智元（ID：AI_era）

本文鏈接：http://www.www897cc.com/showinfo-45-2938-0.html一張照片、一段聲音秒生超逼真視頻！南大等提出全新框架，口型動作精準(zhǔn)還原

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：深圳芯聚能科技發(fā)布全球首款64核心筆記本：云怪REV-9震撼登場

下一篇：北京互聯(lián)網(wǎng)法院公開審理全國首例“AI 聲音侵權(quán)案”

標(biāo)簽：

熱門焦點(diǎn)

清華、北大等86所高校布局元宇宙，是風(fēng)口還是噱頭？

作者：徐賜豪來源：區(qū)塊鏈日報據(jù)全國高校人工智能與大數(shù)據(jù)創(chuàng)新聯(lián)盟元宇宙專委會不完全統(tǒng)計(jì)，截至2023年7月，全國共有86所高校戰(zhàn)略布局元宇宙領(lǐng)域，其中本科院校73所，高職專科院校13所
AI大模型“戰(zhàn)火”燒到了教育領(lǐng)域

作者：劉曠自2023年開年以來，AI大模型這股風(fēng)是越吹越猛烈了。隨著ChatGPT的出圈爆火，再度掀起了一波AI熱浪，無論是在國內(nèi)還是國外都有不少企業(yè)宣布入局或者跟進(jìn)AI大模型領(lǐng)域。與
聚焦虛擬數(shù)字人技術(shù)，這三大商機(jī)要抓住！

關(guān)于虛擬數(shù)字人，企業(yè)可以從三個方面入局，分別是ToG（To Government，面向政府），即為數(shù)字政府和數(shù)字城市提供支持服務(wù)；ToB（To Business，面向企業(yè)），即為企業(yè)提供虛擬員工解決方案；ToC（To Cons
在數(shù)字世界再造世界杯，元宇宙體育正變得越來越豐滿

撰文/ 蔥鮪魚本屆世界杯可能不是最精彩的一屆，卻絕對是看點(diǎn)十足的一屆：后疫情時代的首屆世界杯、耗資2200億美元打造的“史上最貴”世界杯、足壇黃金
星展銀行(DBS)計(jì)劃推出零售數(shù)字資產(chǎn)交易服務(wù)

2月14日消息，新加坡星展銀行CEO Piyush Gupta在財報會議上表示，計(jì)劃于2022年年底前推出零售數(shù)字資產(chǎn)交易服務(wù)。據(jù)悉，DBS于2021年初開設(shè)了機(jī)構(gòu)數(shù)字資產(chǎn)交易平臺，全
萬字專訪Vitalik Buterin：以太坊將成為主流和最安全的基礎(chǔ)層

Vitalik Buterin 在 19 歲時撰寫了以太坊白皮書。他的目標(biāo)簡單而全面，即創(chuàng)建一個“世界計(jì)算機(jī)”，旨在成為所有在線應(yīng)用程序的靈活基礎(chǔ)層，無需任何第三方。自 2015
Layer1的新以太坊，更好的以太坊？

以太坊作為區(qū)塊鏈基礎(chǔ)設(shè)施地位看起來已不可動搖，但也面臨著費(fèi)用高、效率低、偏離去中心化初衷等問題。平臺上既得利益群體的形成和固化也逐漸讓革新變得困難。
以用戶為中心，Web3和區(qū)塊鏈如何將用戶放在首位

競爭優(yōu)勢正在改變競爭優(yōu)勢是每個企業(yè)都在努力爭取的，由谷歌、Facebook和Netflix等大型科技公司主導(dǎo)的市場中，兩大重要類別的競爭優(yōu)勢十分突出。第一個競爭優(yōu)勢來
知識產(chǎn)權(quán)可能在元宇宙中“消失”？

開篇老雅痞先來劃重點(diǎn)：一些公司開始采取積極的方式來保護(hù)他們在元宇宙的知識產(chǎn)權(quán)。耐克、愛馬仕和米拉麥克斯最近提起訴訟，聲稱NFT侵犯了他們的知識產(chǎn)權(quán)。Inside

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

一張照片、一段聲音秒生超逼真視頻！南大等提出全新框架，口型動作精準(zhǔn)還原

清華、北大等86所高校布局元宇宙，是風(fēng)口還是噱頭？

AI大模型“戰(zhàn)火”燒到了教育領(lǐng)域

聚焦虛擬數(shù)字人技術(shù)，這三大商機(jī)要抓住！

在數(shù)字世界再造世界杯，元宇宙體育正變得越來越豐滿

星展銀行(DBS)計(jì)劃推出零售數(shù)字資產(chǎn)交易服務(wù)

萬字專訪Vitalik Buterin：以太坊將成為主流和最安全的基礎(chǔ)層

Layer1的新以太坊，更好的以太坊？

以用戶為中心，Web3和區(qū)塊鏈如何將用戶放在首位

知識產(chǎn)權(quán)可能在元宇宙中“消失”？

最新推薦

數(shù)字人的AB面：在元宇宙中過氣，在AIGC中重生

元宇宙步入暗夜

AI特效、虛擬人、數(shù)字盲盒，來看看元宇宙如何融合冬奧會！

索尼公布PSVR 2頭顯渲染圖；社區(qū)開發(fā)者發(fā)布Quest版《我的世界》

NFT藝術(shù)家Hayley Rincon 專訪：我的迷幻數(shù)字藝術(shù)之路

超級賬本Julian Gordon：聯(lián)盟鏈與公鏈的競爭不是非此即彼

猜你喜歡

熱門推薦

相關(guān)資訊