日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 元宇宙 > AI

一張照片、一段聲音秒生超逼真視頻!南大等提出全新框架,口型動作精準(zhǔn)還原

來源: 責(zé)編: 時間:2023-12-18 17:35:12 283觀看
導(dǎo)讀 新智元報道編輯:潤 好困【新智元導(dǎo)讀】最近,來自南大等機構(gòu)的研究人員開發(fā)了一個通用的框架,用一段音頻就能讓照片上的頭像講多國語言。不論是頭部動作還是嘴型都非常自然,看到很多不錯的一段音頻 + 一張照片,瞬間

Reo28資訊網(wǎng)——每日最新資訊28at.com

新智元報道Reo28資訊網(wǎng)——每日最新資訊28at.com

編輯:潤 好困Reo28資訊網(wǎng)——每日最新資訊28at.com

【新智元導(dǎo)讀】最近,來自南大等機構(gòu)的研究人員開發(fā)了一個通用的框架,用一段音頻就能讓照片上的頭像講多國語言。不論是頭部動作還是嘴型都非常自然,看到很多不錯的Reo28資訊網(wǎng)——每日最新資訊28at.com

一段音頻 + 一張照片,瞬間照片里的人就能開始講話了。Reo28資訊網(wǎng)——每日最新資訊28at.com

Reo28資訊網(wǎng)——每日最新資訊28at.com

生成的講話動畫不但口型和音頻能夠無縫對齊,面部表情和頭部姿勢都非常自然而且有表現(xiàn)力。Reo28資訊網(wǎng)——每日最新資訊28at.com

而且支持的圖像風(fēng)格也非常的多樣,除了一般的照片,卡通圖片,證件照等生成的效果都非常自然。Reo28資訊網(wǎng)——每日最新資訊28at.com

Reo28資訊網(wǎng)——每日最新資訊28at.com

再加上多語言的支持,瞬間照片里的人物就活了過來,張嘴就能飆外語。Reo28資訊網(wǎng)——每日最新資訊28at.com

Reo28資訊網(wǎng)——每日最新資訊28at.com

這是由來自南京大學(xué)等機構(gòu)的研究人員提出的一個通用框架 ——VividTalk,只需要語音和一張圖片,就能生成高質(zhì)量的說話視頻。Reo28資訊網(wǎng)——每日最新資訊28at.com

Reo28資訊網(wǎng)——每日最新資訊28at.com

論文地址:https://arxiv.org/ abs / 2312.01841

這個框架是一個由音頻到網(wǎng)格生成,和網(wǎng)格到視頻生成組成的兩階段框架。Reo28資訊網(wǎng)——每日最新資訊28at.com

Reo28資訊網(wǎng)——每日最新資訊28at.com

在第一階段,考慮面部運動和 blendshape 分布之間的一對多映射,利用 blendshape 和 3D 頂點作為中間表征,其中 blendshape 提供粗略運動,頂點偏移描述細(xì)粒度嘴唇運動。Reo28資訊網(wǎng)——每日最新資訊28at.com

此外,還采用了基于多分支 Transformer 網(wǎng)絡(luò),以充分利用音頻上下文來建模與中間表征的關(guān)系。Reo28資訊網(wǎng)——每日最新資訊28at.com

Reo28資訊網(wǎng)——每日最新資訊28at.com

為了更合理地從音頻中學(xué)習(xí)剛性頭部運動,研究人員將此問題轉(zhuǎn)化為離散有限空間中的代碼查詢?nèi)蝿?wù),并構(gòu)建具有重建和映射機制的可學(xué)習(xí)頭部姿勢代碼本。Reo28資訊網(wǎng)——每日最新資訊28at.com

之后,學(xué)習(xí)到的兩個運動都應(yīng)用于參考標(biāo)識,從而產(chǎn)生驅(qū)動網(wǎng)格。Reo28資訊網(wǎng)——每日最新資訊28at.com

在第二階段,基于驅(qū)動網(wǎng)格和參考圖像,渲染內(nèi)表面和外表面(例如軀干)的投影紋理,從而全面建模運動。Reo28資訊網(wǎng)——每日最新資訊28at.com

然后設(shè)計一種新穎的雙分支運動模型來模擬密集運動,將其作為輸入發(fā)送到生成器,以逐幀方式合成最終視頻。Reo28資訊網(wǎng)——每日最新資訊28at.com

VividTalk 可以生成具有表情豐富的面部表情和自然頭部姿勢的口型同步頭部說話視頻。Reo28資訊網(wǎng)——每日最新資訊28at.com

如下表所示,視覺結(jié)果和定量分析都證明了新方法在生成質(zhì)量和模型泛化方面的優(yōu)越性。Reo28資訊網(wǎng)——每日最新資訊28at.com

Reo28資訊網(wǎng)——每日最新資訊28at.com

框架實現(xiàn)方法

給定音頻序列和參考面部圖像作為輸入,新方法可以生成具有不同面部表情和自然頭部姿勢的頭部說話視頻。Reo28資訊網(wǎng)——每日最新資訊28at.com

VividTalk 框架由兩個階段組成,分別稱為音頻到網(wǎng)格生成和網(wǎng)格到視頻生成。Reo28資訊網(wǎng)——每日最新資訊28at.com

音頻到網(wǎng)格生成

這一階段的目標(biāo)是根據(jù)輸入音頻序列和參考面部圖像生成 3D 驅(qū)動的網(wǎng)格。Reo28資訊網(wǎng)——每日最新資訊28at.com

具體來說,首先利用 FaceVerse 來重建參考面部圖像。Reo28資訊網(wǎng)——每日最新資訊28at.com

接下來,從音頻中學(xué)習(xí)非剛性面部表情運動和剛性頭部運動來驅(qū)動重建的網(wǎng)格。Reo28資訊網(wǎng)——每日最新資訊28at.com

為此,研究人員提出了多分支 BlendShape 和頂點偏移生成器以及可學(xué)習(xí)的頭部姿勢代碼本。Reo28資訊網(wǎng)——每日最新資訊28at.com

BlendShape 和頂點偏移生成器Reo28資訊網(wǎng)——每日最新資訊28at.com

學(xué)習(xí)通用模型來生成準(zhǔn)確的嘴部動作和具有特定人風(fēng)格的富有表現(xiàn)力的面部表情在兩個方面具有挑戰(zhàn)性:Reo28資訊網(wǎng)——每日最新資訊28at.com

1)第一個挑戰(zhàn)是音頻運動相關(guān)性問題。由于音頻信號與嘴部運動最相關(guān),因此很難根據(jù)音頻對非嘴部運動進(jìn)行建模。Reo28資訊網(wǎng)——每日最新資訊28at.com

2)從音頻到面部表情動作的映射自然具有一對多的屬性,這意味著相同的音頻輸入可能有不止一種正確的動作模式,從而導(dǎo)致沒有個人特征的面部形象。Reo28資訊網(wǎng)——每日最新資訊28at.com

為了解決音頻運動相關(guān)性問題,研究人員使用 blendshape 和頂點偏移作為中間表征,其中 blendshape 提供全局粗粒度的面部表情運動,而與嘴唇相關(guān)的頂點偏移提供局部細(xì)粒度的嘴唇運動。Reo28資訊網(wǎng)——每日最新資訊28at.com

對于缺乏面部特征的問題,研究人員提出了一種基于多分支 transformer 的生成器來單獨建模每個部分的運動,并注入特定于主題的風(fēng)格以保持個人特征。Reo28資訊網(wǎng)——每日最新資訊28at.com

可學(xué)習(xí)的頭部姿勢密碼本Reo28資訊網(wǎng)——每日最新資訊28at.com

頭部姿勢是影響頭部說話視頻真實感的另一個重要因素。然而,直接從音頻中學(xué)習(xí)它并不容易,因為它們之間的關(guān)系很弱,這會導(dǎo)致不合理和不連續(xù)的結(jié)果。Reo28資訊網(wǎng)——每日最新資訊28at.com

受到之前研究的啟發(fā),利用離散碼本作為先驗,即使在輸入降級的情況下也能保證高保真生成。Reo28資訊網(wǎng)——每日最新資訊28at.com

研究人員建議將此問題轉(zhuǎn)化為離散且有限頭部姿勢空間中的代碼查詢?nèi)蝿?wù),并精心設(shè)計了兩階段訓(xùn)練機制,第一階段構(gòu)建豐富的頭部姿勢代碼本,第二階段將輸入音頻映射到碼本生成最終結(jié)果,如下圖所示。Reo28資訊網(wǎng)——每日最新資訊28at.com

Reo28資訊網(wǎng)——每日最新資訊28at.com

網(wǎng)格到視頻生成

如下圖所示,研究人員提出了雙分支 motionvae 來對 2D 密集運動進(jìn)行建模,該運動將作為生成器的輸入來合成最終視頻。Reo28資訊網(wǎng)——每日最新資訊28at.com

Reo28資訊網(wǎng)——每日最新資訊28at.com

將 3D 域運動直接轉(zhuǎn)換為 2D 域運動既困難又低效,因為網(wǎng)絡(luò)需要尋找兩個域運動之間的對應(yīng)關(guān)系以更好地建模。Reo28資訊網(wǎng)——每日最新資訊28at.com

為了提高網(wǎng)絡(luò)的性能并獲得進(jìn)一步的性能,研究人員借助投影紋理表示在 2D 域中進(jìn)行這種轉(zhuǎn)換。Reo28資訊網(wǎng)——每日最新資訊28at.com

如上圖所示,在面部分支中,參考投影紋理 P T 和驅(qū)動的投影紋理 P Tare 連接并饋入編碼器,然后輸入 MLP,輸出 2D 面部運動圖。Reo28資訊網(wǎng)——每日最新資訊28at.com

為了進(jìn)一步增強嘴唇運動并更準(zhǔn)確地建模,研究人員還選擇與嘴唇相關(guān)的標(biāo)志并將其轉(zhuǎn)換為高斯圖,這是一種更緊湊、更有效的表示。Reo28資訊網(wǎng)——每日最新資訊28at.com

然后,沙漏網(wǎng)絡(luò)將減去的高斯圖作為輸入并輸出 2D 嘴唇運動,該運動將與面部運動連接并解碼為密集運動和遮擋圖。Reo28資訊網(wǎng)——每日最新資訊28at.com

最后,研究人員根據(jù)之前預(yù)測的密集運動圖對參考圖像進(jìn)行變形,獲得變形圖像,該變形圖像將與遮擋圖一起作為生成器的輸入,逐幀合成最終視頻。Reo28資訊網(wǎng)——每日最新資訊28at.com

實驗效果

數(shù)據(jù)集Reo28資訊網(wǎng)——每日最新資訊28at.com

HDTF 是一個高分辨率視聽數(shù)據(jù)集,包含 346 個主題的超過 16 小時的視頻。VoxCeleb 是另一個更大的數(shù)據(jù)集,涉及超過 10 萬個視頻和 1000 個身份。Reo28資訊網(wǎng)——每日最新資訊28at.com

研究人員首先過濾兩個數(shù)據(jù)集以刪除無效數(shù)據(jù),例如音頻和視頻不同步的數(shù)據(jù)。Reo28資訊網(wǎng)——每日最新資訊28at.com

然后裁剪視頻中的人臉區(qū)域并將其大小調(diào)整為 256×256。Reo28資訊網(wǎng)——每日最新資訊28at.com

最后,將處理后的視頻分為 80%、10%、10%,這將用于用于培訓(xùn)、驗證和測試。Reo28資訊網(wǎng)——每日最新資訊28at.com

實施細(xì)節(jié)Reo28資訊網(wǎng)——每日最新資訊28at.com

在實驗中,研究人員使用 FaceVerse 這種最先進(jìn)的單圖像重建方法來恢復(fù)視頻并獲得用于監(jiān)督的地面實況混合形狀和網(wǎng)格。Reo28資訊網(wǎng)——每日最新資訊28at.com

在訓(xùn)練過程中,Audio-To-Mesh 階段和 Mesh-To-Video 階段是分開訓(xùn)練的。Reo28資訊網(wǎng)——每日最新資訊28at.com

具體來說,音頻到網(wǎng)格階段的 BlendShape 和頂點偏移生成器以及可學(xué)習(xí)頭部姿勢代碼本也分別進(jìn)行訓(xùn)練。Reo28資訊網(wǎng)——每日最新資訊28at.com

在推理過程中,研究人員的模型可以通過級聯(lián)上述兩個階段以端到端的方式工作。Reo28資訊網(wǎng)——每日最新資訊28at.com

對于優(yōu)化,使用 Adam 優(yōu)化器,兩個階段的學(xué)習(xí)率分別為 1×10 和 1×10。在 8 個 NVIDIA V100 GPU 上的總訓(xùn)練時間為 2 天。Reo28資訊網(wǎng)——每日最新資訊28at.com

與 SOTA 的比較

Reo28資訊網(wǎng)——每日最新資訊28at.com

可以看到,研究人員提出的方法可以生成高質(zhì)量的頭部說話視頻,具有精確的唇形同步和富有表現(xiàn)力的面部運動。Reo28資訊網(wǎng)——每日最新資訊28at.com

相比之下:Reo28資訊網(wǎng)——每日最新資訊28at.com

SadTalker 無法生成準(zhǔn)確的細(xì)粒度嘴唇運動,并且視頻質(zhì)量更低。Reo28資訊網(wǎng)——每日最新資訊28at.com

TalkLip 產(chǎn)生模糊結(jié)果,并將膚色風(fēng)格改為略黃,在一定程度上丟失了身份信息。Reo28資訊網(wǎng)——每日最新資訊28at.com

MakeItTalk 無法生成準(zhǔn)確的嘴形,尤其是在跨身份配音設(shè)置中。Reo28資訊網(wǎng)——每日最新資訊28at.com

Wav2Lip 傾向于合成模糊的嘴部區(qū)域,并在輸入單個參考圖像時輸出具有靜態(tài)頭部姿勢和眼球運動的視頻。Reo28資訊網(wǎng)——每日最新資訊28at.com

PC-AVS 需要驅(qū)動視頻作為輸入,并努力保存身份。Reo28資訊網(wǎng)——每日最新資訊28at.com

定量比較Reo28資訊網(wǎng)——每日最新資訊28at.com

如下表所示,新方法在圖像質(zhì)量和身份保留方面表現(xiàn)更好,這通過較低的 FID 和較高的 CSIM 指標(biāo)反映出來。Reo28資訊網(wǎng)——每日最新資訊28at.com

Reo28資訊網(wǎng)——每日最新資訊28at.com

由于新穎的可學(xué)習(xí)密碼本機制,新方法生成的頭部姿勢也更加多樣化和自然。Reo28資訊網(wǎng)——每日最新資訊28at.com

雖然新方法的 SyncNet 分?jǐn)?shù)低于 Wav2Lip,但可以驅(qū)動使用單個音頻而不是視頻的參考圖像并生成更高質(zhì)量的幀。Reo28資訊網(wǎng)——每日最新資訊28at.com

參考資料:Reo28資訊網(wǎng)——每日最新資訊28at.com

https://humanaigc.github.io/vivid-talk/Reo28資訊網(wǎng)——每日最新資訊28at.com

本文來自微信公眾號:新智元 (ID:AI_era)Reo28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-2938-0.html一張照片、一段聲音秒生超逼真視頻!南大等提出全新框架,口型動作精準(zhǔn)還原

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 深圳芯聚能科技發(fā)布全球首款64核心筆記本:云怪REV-9震撼登場

下一篇: 北京互聯(lián)網(wǎng)法院公開審理全國首例“AI 聲音侵權(quán)案”

標(biāo)簽:
  • 熱門焦點
  • 元宇宙的文旅賽道,還能如何發(fā)力?

    來源:X增強現(xiàn)實蘋果推出Vision Pro,為XR行業(yè)注入一劑強心針。而在蘋果開發(fā)者大會上迪士尼CEO鮑勃·艾格在宣布迪士尼與蘋果達(dá)成合作,其Disney+流媒體服務(wù)將于Vision Pro
  • 新周期,誰在堅守窄門?

    來源:錦緞今日的投資者恐怕已經(jīng)忘記了,在OpenAI創(chuàng)造出ChatGPT這一殺器的前夜,生成式AI也曾經(jīng)是一道窄門,窄到連馬斯克都差點失去了信心。在當(dāng)時的輿論眼中,AGI的道路不夠性感,不夠
  • 雷克薩斯高管,“受賄”5000萬?

    來源:毒舌科技作者:潘磊雷克薩斯的高管,好像出事了。五六家日本小媒體,突然曝出了一個與中國市場有關(guān)的大新聞——雷克薩斯中國區(qū)一個高管受賄10億日元(約合人民幣5000
  • 元宇宙里賣酸奶,好炸裂的操作!

    作者 | 李東陽 來源 | 首席營銷官有沒有發(fā)現(xiàn),當(dāng)下的熱搜出現(xiàn)一個有意思的現(xiàn)象,那就是“情懷”不知不覺成為了主流,爺青回話題討論性非常高。前有名偵探柯南和優(yōu)衣庫
  • 10億基金,李彥宏呼喚下一個AI獨角獸

    ©?深響原創(chuàng) · 作者|何文 AI太熱了。 在海外,OpenAI估值已超270億美元、英偉達(dá)市值破萬億、微軟把GPT整合進(jìn)了全線產(chǎn)品。在國內(nèi),百度、阿里、華為、商湯等大公司,以及
  • 上、中、下游加深融合,搭建元宇宙產(chǎn)業(yè)全景

    元宇宙產(chǎn)業(yè)鏈涉及多種技術(shù)和多個領(lǐng)域。在上游,聚集著大量的技術(shù)廠商,提供元宇宙相關(guān)的硬件和軟件支持;在中游,內(nèi)容運營與分發(fā)領(lǐng)域也吸引著越來越多的企業(yè)以VR內(nèi)容
  • 汽車元宇宙,是概念還是未來?

    作者|何文 元宇宙是未來趨勢已經(jīng)無需驗證。 從概念上來看,元宇宙是兩種存在多年的概念的融合:虛擬現(xiàn)實和數(shù)字第二人生。這也就意味著,元宇宙所代表的是一種新的數(shù)
  • 新款英特爾芯片將使NFT鑄造變得更加方便

    科技巨頭和微處理器制造商英特爾(Intel)正在發(fā)布一款適用于 NFT 鑄造和挖礦的新芯片。新產(chǎn)品專注于效率、易操作性和可持續(xù)性,該公司的戰(zhàn)略是從加密興起與 NFT爆
  • 全球十大元宇宙概念游戲

    A股市場中,不少游戲公司早早搭上了元宇宙概念。舉例,中青寶宣稱將發(fā)布一款元宇宙概念的模擬經(jīng)營類游戲,盡管游戲尚在研發(fā)中,這一消息已經(jīng)讓中青寶的股價在51個交易
Top 主站蜘蛛池模板: 商河县| 开远市| 仪征市| 德格县| 彭阳县| 大英县| 米易县| 阿拉善左旗| 平利县| 繁昌县| 茌平县| 兴海县| 东城区| 静乐县| 丰台区| 嘉荫县| 西昌市| 都江堰市| 五台县| 瓮安县| 建瓯市| 普定县| 吉首市| 乡宁县| 海南省| 荆州市| 始兴县| 申扎县| 临江市| 京山县| 梧州市| 靖边县| 利津县| 苏尼特左旗| 无为县| 汉川市| 合江县| 从江县| 浦东新区| 湟源县| 平顺县|