當(dāng)前位置：首頁(yè) > 元宇宙 > AI

360 度無(wú)死角！UC 伯克利華人發(fā)布 3DHM 框架：一張圖片即可模仿任意視頻動(dòng)作

來(lái)源：責(zé)編：時(shí)間：2024-02-04 08:58:17 270觀看

導(dǎo)讀【新智元導(dǎo)讀】無(wú)需標(biāo)注數(shù)據(jù)，3DHM 框架即可讓照片動(dòng)起來(lái)，模仿目標(biāo)視頻動(dòng)作，衣服動(dòng)起來(lái)也真實(shí)！輸入一張任意姿勢(shì)的照片，想讓照片里的人跟隨「指定視頻」來(lái)進(jìn)行動(dòng)作模仿并不簡(jiǎn)單，除了肢體動(dòng)作的模仿外，模型還需要對(duì)運(yùn)

【新智元導(dǎo)讀】無(wú)需標(biāo)注數(shù)據(jù)，3DHM 框架即可讓照片動(dòng)起來(lái)，模仿目標(biāo)視頻動(dòng)作，衣服動(dòng)起來(lái)也真實(shí)！

輸入一張任意姿勢(shì)的照片，想讓照片里的人跟隨「指定視頻」來(lái)進(jìn)行動(dòng)作模仿并不簡(jiǎn)單，除了肢體動(dòng)作的模仿外，模型還需要對(duì)運(yùn)動(dòng)過(guò)程中衣服、人物外觀的變化進(jìn)行建模。

如果輸入圖像是正面的，而模仿的視頻動(dòng)作包括轉(zhuǎn)身的話，模型還需要「想象」出衣服的背面樣子，以及衣服在轉(zhuǎn)動(dòng)過(guò)程中飄起的樣子。

為了解決這個(gè)問(wèn)題，來(lái)自加州大學(xué)伯克利分校的研究人員提出了一個(gè)兩階段的、基于擴(kuò)散模型的框架 3DHM，通過(guò)從單個(gè)圖像完成紋理圖來(lái)合成 3D 人體運(yùn)動(dòng)，然后渲染 3D 人體以模仿視頻中 actor 的動(dòng)作。

論文地址：https://arxiv.org/ abs / 2401.10889

3DHM 模型中包含兩個(gè)核心組件：

1. 學(xué)習(xí)人體和服裝中不可見(jiàn)部分的先驗(yàn)知識(shí)。

研究人員使用填充擴(kuò)散（in-filling diffusion）模型，在給定的單張圖像中想象（hallucinate）出不可見(jiàn)部分，然后在紋理圖空間（texture map space）上訓(xùn)練該模型，在姿勢(shì)和視點(diǎn)不變的條件下提升采樣效率。

2. 使用適當(dāng)?shù)姆b和紋理渲染出不同的身體姿勢(shì)。

研究人員開(kāi)發(fā)了一個(gè)基于擴(kuò)散模型的渲染 pipeline，由 3D 人體姿勢(shì)控制，從而可以生成目標(biāo)人物在不同姿勢(shì)下的逼真渲染，包括衣服、頭發(fā)和看不見(jiàn)區(qū)域下的合理填充。

該方法可以生成一系列忠實(shí)于目標(biāo)運(yùn)動(dòng)的 3D 姿態(tài)、在視覺(jué)上與輸入更相似的圖像；3D 控件還能夠使用各種合成相機(jī)軌跡來(lái)渲染人物。

實(shí)驗(yàn)結(jié)果表明，相比以前的方法，該方法在生成長(zhǎng)時(shí)間運(yùn)動(dòng)和各種高難度的姿勢(shì)上更有彈性（resilient）。

合成運(yùn)動(dòng)中的人物

紋理貼圖涂色（Texture map Inpainting）

第一階段模型的目標(biāo)是通過(guò)涂色模仿者的不可見(jiàn)區(qū)域，生成可信的完整紋理貼圖。

研究人員首先將三維網(wǎng)格渲染到輸入圖像上，然后按照 4DHumans 的方法對(duì)每個(gè)可見(jiàn)三角形進(jìn)行顏色采樣，從而提取部分可見(jiàn)的紋理圖。

輸入（input）

先利用一種常用的方法來(lái)推斷像素到表面的對(duì)應(yīng)關(guān)系，從而建立一個(gè)不完整的 UV 紋理圖，用于從單張 RGB 圖像中提取三維網(wǎng)格紋理。同時(shí)計(jì)算可見(jiàn)性掩碼，以顯示哪些像素在 3D 中可見(jiàn)，哪些不可見(jiàn)。

目標(biāo)（target）

由于建模的目的是生成完整的紋理貼圖，因此使用視頻數(shù)據(jù)生成偽完整紋理貼圖。

由于 4DHumans 可以隨著時(shí)間的推移追蹤人物，因此會(huì)不斷更新其內(nèi)部紋理圖，將其表示為可見(jiàn)區(qū)域的移動(dòng)平均值。

但為了生成更清晰的圖像，研究人員發(fā)現(xiàn)中值濾波比移動(dòng)平均法更適合生成任務(wù)；雖然該技術(shù)可以應(yīng)用于任何視頻中，但在本階段使用的是 2,205 個(gè)人類視頻，對(duì)于每段人類視頻，首先從每幀視頻中提取部分紋理圖。

由于每段視頻都包含 360 度的人類視角，因此從整段視頻中計(jì)算出一個(gè)偽完整紋理圖，并將其設(shè)置為第 1 階段的目標(biāo)輸出，具體來(lái)說(shuō)是提取視頻紋理圖可見(jiàn)部分的整體中值。

模型（Model）

研究人員直接在 Stable Diffusion Inpainting 模型上進(jìn)行微調(diào)，該模型在圖像補(bǔ)全任務(wù)中表現(xiàn)出色。

輸入部分紋理貼圖和相應(yīng)的可見(jiàn)度掩碼，然后得到復(fù)原的人類預(yù)測(cè)貼圖；鎖定文本編碼器分支，并始終將「真人」（real human）作為固定穩(wěn)定擴(kuò)散模型的輸入文本。訓(xùn)練好的模型稱為 Inpainting Diffusion

人體渲染（Human Rendering）

第二階段的目標(biāo)是獲得一個(gè)模仿 actor 動(dòng)作的人的逼真渲染效果。

雖然中間渲染（根據(jù)演員的姿勢(shì)和階段 1 中的紋理貼圖渲染）可以反映人體的各種動(dòng)作，但這些 SMPL 網(wǎng)格渲染是緊貼人體的，無(wú)法表現(xiàn)出服裝、發(fā)型和體形的逼真渲染效果。

例如，如果輸入一個(gè)女孩穿著裙子跳舞的場(chǎng)景，中間的渲染可能是「跳舞」，但 SMPL 網(wǎng)格渲染卻無(wú)法將裙子做成動(dòng)畫。

為了以完全自監(jiān)督的方式訓(xùn)練模型，研究人員假定 actor 就是模仿者，畢竟一個(gè)好的 actor 應(yīng)該是一個(gè)好的模仿者；然后就可以從 4DHumans 中獲取任意視頻和姿勢(shì)序列，再獲取任意單幀，并從階段 1 中獲取完整的紋理貼圖，通過(guò)在三維姿勢(shì)上渲染紋理貼圖來(lái)獲取中間渲染圖。

有了中間渲染圖和真實(shí) RGB 圖像的配對(duì)數(shù)據(jù)后，就可以收集大量的配對(duì)數(shù)據(jù)作為條件來(lái)訓(xùn)練第二階段擴(kuò)散模型。

輸入（Input）

首先將第 1 階段生成的紋理貼圖（完全完整）應(yīng)用到 actor 的三維身體網(wǎng)格序列中，并對(duì)模仿者執(zhí)行演員動(dòng)作的過(guò)程進(jìn)行中間渲染。

需要注意的是，此時(shí)的中間渲染只能反映與三維網(wǎng)格相匹配的服裝（貼身衣物），而無(wú)法反映 SMPL 身體以外的紋理，如裙子、冬季夾克或帽子的膨脹區(qū)域。

為了獲得具有完整服裝紋理的人體，研究人員將獲得的中間渲染圖和人體原始圖像輸入到渲染擴(kuò)散中，以渲染出具有逼真外觀的人體新姿勢(shì)。

目標(biāo)（Target）

由于在收集數(shù)據(jù)時(shí)假定 actor 是模仿者，所以基于中間渲染圖和真實(shí) RGB 圖像的配對(duì)數(shù)據(jù)，可以在大量數(shù)據(jù)上訓(xùn)練該模型，而不需要任何直接的 3D 監(jiān)督信號(hào)。

模型（Model）

與 ControlNet 類似，研究人員直接克隆穩(wěn)定擴(kuò)散模型編碼器的權(quán)重作為可控分支（可訓(xùn)練副本）來(lái)處理 3D 條件。

凍結(jié)預(yù)先訓(xùn)練好的穩(wěn)定擴(kuò)散模型，并輸入噪聲潛點(diǎn)（64×64），同時(shí)將時(shí)間 t 的紋理映射三維人體和原始人體照片輸入到固定的 VAE 編碼器中，得到紋理映射三維人體潛碼（64 × 64）和外觀潛碼（64 × 64）作為條件潛碼（conditioning latents）。

然后將這兩個(gè)條件潛碼輸入渲染擴(kuò)散可控分支，該分支的主要設(shè)計(jì)原則是從人類輸入中學(xué)習(xí)紋理，并在訓(xùn)練過(guò)程中通過(guò)去噪處理將其應(yīng)用于紋理映射的三維人類。

目標(biāo)是從第 1 階段生成（紋理映射）的三維人體中渲染出具有生動(dòng)紋理的真人。

通過(guò)擴(kuò)散步驟程序和固定 VAE 解碼器獲得輸出潛像，并將其處理為像素空間。

與第 1 階段相同，鎖定了文本編碼器分支，并始終將「真人正在表演」（a real human is acting）作為固定穩(wěn)定擴(kuò)散模型的輸入文本。

將訓(xùn)練好的模型稱為渲染擴(kuò)散（Rendering Diffusion）模型，逐幀預(yù)測(cè)輸出。

實(shí)驗(yàn)結(jié)果對(duì)比基線

用于對(duì)比的 sota 模型包括 DreamPose、DisCo 和 ControlNet（姿勢(shì)準(zhǔn)確性比較）。

公平起見(jiàn)，所有方法的推理步驟都設(shè)為 50 步。

幀生成質(zhì)量（Frame-wise Generation Quality）

研究人員在 2K2K 測(cè)試數(shù)據(jù)集上對(duì)比了 3DHM 和其他方法，該數(shù)據(jù)集由 50 個(gè)未見(jiàn)過(guò)的人體視頻組成，分辨率為 256×256。

每個(gè)人物視頻拍攝 30 幀，代表每個(gè)未見(jiàn)者的不同視角，角度范圍涵蓋 0 度到 360 度，每 12 度取一幀，可以更好地評(píng)估每個(gè)模型的預(yù)測(cè)和泛化能力。

從結(jié)果中可以看到，3DHM 在不同指標(biāo)上都優(yōu)于其他基線方法。

視頻級(jí)生成質(zhì)量（Video-level Generation Quality）

為了驗(yàn)證 3DHM 的時(shí)間一致性，研究人員還報(bào)告了與圖像級(jí)評(píng)估相同的測(cè)試集和基線實(shí)施的結(jié)果。

與圖像級(jí)對(duì)比不同的是，將每連續(xù)的 16 個(gè)幀串聯(lián)起來(lái)，形成每個(gè)未見(jiàn)過(guò)的人在具有挑戰(zhàn)性的視角上的樣本。

角度范圍從 150 度到 195 度，每 3 度取一幀，可以更好地評(píng)估每個(gè)模型的預(yù)測(cè)和泛化能力。

根據(jù) 50 個(gè)視頻的總體平均得分結(jié)果中可以看到，盡管 3DHM 是按每幀進(jìn)行訓(xùn)練和測(cè)試的，但與之前的方法相比仍具有顯著優(yōu)勢(shì)，也表明 3DHM 在保持三維控制的時(shí)間一致性方面表現(xiàn)出色。

姿勢(shì)準(zhǔn)確率（Pose Accuracy）

為了進(jìn)一步評(píng)估模型的有效性，研究人員首先通過(guò)先進(jìn)的三維姿勢(shì)估計(jì)模型 4DHumans 從不同方法生成的人類視頻中估計(jì)三維姿勢(shì)，然后使用相同的數(shù)據(jù)集設(shè)置，并將提取的姿勢(shì)與目標(biāo)視頻中的三維姿勢(shì)進(jìn)行比較。

由于 ControlNet 不輸入圖像，所以研究人員選擇輸入了相同的提示「真人正在活動(dòng)」（a real human is acting）和相應(yīng)的 openpose 作為條件。

從結(jié)果中可以看到，3DHM 能夠按照所提供的三維姿勢(shì)非常準(zhǔn)確地合成出活動(dòng)的人；同時(shí)，以前的方法可能無(wú)法通過(guò)直接預(yù)測(cè)姿勢(shì)到像素的映射達(dá)到同樣的性能。

還可以注意到，即使 DisCO 和 ControlNet 由 Openpose 控制，DreamPose 由 DensePose 控制，3DHM 也能在 2D 指標(biāo)和 3D 指標(biāo)上取得優(yōu)異的結(jié)果。

參考資料：

https://arxiv.org/abs/2401.10889

本文來(lái)自微信公眾號(hào)：新智元（ID：AI_era）

本文鏈接：http://www.www897cc.com/showinfo-45-3454-0.html360 度無(wú)死角！UC 伯克利華人發(fā)布 3DHM 框架：一張圖片即可模仿任意視頻動(dòng)作

聲明：本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇：國(guó)際貨幣基金組織：AI 可提高勞動(dòng)者生產(chǎn)率、收入，取決于各國(guó)如何利用其潛力

下一篇： X（推特）解除泰勒?斯威夫特“禁搜令”，運(yùn)營(yíng)主管稱時(shí)刻保持警惕

標(biāo)簽：

熱門焦點(diǎn)

元宇宙步入暗夜

撰文 | 文燁豪元宇宙的故事，似乎講不通了。當(dāng)下，刮起元宇宙熱潮的Roblox股價(jià)已跌去大半，帶頭大哥Meta也正因元宇宙虧損深陷泥潭。再看國(guó)內(nèi)，從字節(jié)“派對(duì)島&
搭上“谷愛(ài)凌”，“柳夜熙們”站上風(fēng)口？

作者：張琳曹楊從“永不塌房”的藝人到頻頻亮相北京冬奧會(huì)，作為元宇宙細(xì)分賽道之一的虛擬數(shù)字人又火了一把。2月7日，即谷愛(ài)凌摘得冬奧會(huì)自由式滑雪大跳臺(tái)金牌的
2022年6款最佳的NFT稀有度查詢工具

NFT正在風(fēng)靡全球，但擁有一個(gè)你自認(rèn)為看起來(lái)很酷的 NFT 是不夠的，因?yàn)樗€應(yīng)該是稀有的，稀有度會(huì)影響每個(gè) NFT 的價(jià)值。因此，如果您打算投資 NFT，則需要使用 NFT 稀
從虛擬餐廳到虛擬時(shí)裝秀，行業(yè)巨頭掀起元宇宙商標(biāo)注冊(cè)潮

自從 Facebook 更名為 Meta 后，關(guān)于元宇宙的討論愈發(fā)激烈，這一詞匯也越來(lái)越多的出現(xiàn)在我們的視野里。這是一個(gè)非常有趣的話題。伴隨著爭(zhēng)論，有些人認(rèn)為是馬克·扎
Meta展示AI系統(tǒng)Builder Bot；《Pistol Whip》增加派對(duì)模式

今日熱點(diǎn)：Meta展示AI系統(tǒng)Builder Bot；招聘信息顯示Meta正在探索具有蜂窩連接功能的VR/AR頭顯；英國(guó)VR工作室Coatsink Games正在為PSVR 2開(kāi)發(fā)新游戲；VR節(jié)奏射擊游戲
以太坊倫敦升級(jí)后，隨之生效的以太坊EIP-1559是什么？

作者：三黎過(guò)去的一年里，除了 BTC 一如既往穩(wěn)坐王位，DEFI 則是貫穿一整年的狂歡熱點(diǎn)。 DeFi 在讓 ETH 實(shí)現(xiàn)價(jià)值增長(zhǎng)的同時(shí)，也使得其網(wǎng)絡(luò)日漸擁堵、交易費(fèi)用增高，成為
元宇宙風(fēng)歸何處？

元宇宙持續(xù)大火，在過(guò)去一段時(shí)間內(nèi)，其屢次登上熱點(diǎn)，吸引了一波又一波投資者。近期，在“2022中國(guó)·金魚嘴元宇宙生態(tài)賦能大會(huì)”上，南京建鄴區(qū)金魚嘴基金街區(qū)宣布計(jì)劃
知識(shí)產(chǎn)權(quán)可能在元宇宙中“消失”？

開(kāi)篇老雅痞先來(lái)劃重點(diǎn)：一些公司開(kāi)始采取積極的方式來(lái)保護(hù)他們?cè)谠钪娴闹R(shí)產(chǎn)權(quán)。耐克、愛(ài)馬仕和米拉麥克斯最近提起訴訟，聲稱NFT侵犯了他們的知識(shí)產(chǎn)權(quán)。Inside
GameFi 深度解析，元宇宙內(nèi)容雛形顯現(xiàn)

GameFi=Game（游戲）+Defi（去中心化金融），核心特點(diǎn)為“Play to Earn”。通過(guò)技術(shù)與去中心化價(jià)值觀賦能，GameFi 游戲資產(chǎn)化身為NFT 和代幣上鏈，具備了可驗(yàn)證性和流通性；開(kāi)

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁(yè)

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

360 度無(wú)死角！UC 伯克利華人發(fā)布 3DHM 框架：一張圖片即可模仿任意視頻動(dòng)作

元宇宙步入暗夜

搭上“谷愛(ài)凌”，“柳夜熙們”站上風(fēng)口？

2022年6款最佳的NFT稀有度查詢工具

從虛擬餐廳到虛擬時(shí)裝秀，行業(yè)巨頭掀起元宇宙商標(biāo)注冊(cè)潮

Meta展示AI系統(tǒng)Builder Bot；《Pistol Whip》增加派對(duì)模式

以太坊倫敦升級(jí)后，隨之生效的以太坊EIP-1559是什么？

元宇宙風(fēng)歸何處？

知識(shí)產(chǎn)權(quán)可能在元宇宙中“消失”？

GameFi 深度解析，元宇宙內(nèi)容雛形顯現(xiàn)

最新推薦

文心一言排名墊底，卻成為百度業(yè)績(jī)?cè)鲩L(zhǎng)杠桿

VR/AR迷失元宇宙“硝煙”

元宇宙這一年：技術(shù)加速落地，助傳統(tǒng)行業(yè)走向新階段

2021年中國(guó)智慧城市行業(yè)概覽：AI慧眼獨(dú)具，賦能“雙碳”目標(biāo)

「國(guó)產(chǎn)良心」NFT嘲諷了誰(shuí)？

超級(jí)賬本Julian Gordon：聯(lián)盟鏈與公鏈的競(jìng)爭(zhēng)不是非此即彼

猜你喜歡

熱門推薦

相關(guān)資訊