當前位置：首頁 > 元宇宙 > AI

Stability AI 開源上新：3D 生成引入視頻擴散模型，質量一致性 up，4090 可玩

來源：責編：時間：2024-03-22 08:52:24 195觀看

導讀 Stable Diffusion 背后公司 Stability AI 又上新了。這次帶來的是圖生 3D 方面的新進展：基于 Stable Video Diffusion 的 Stable Video 3D（SV3D），只用一張圖片就能生成高質量 3D 網格。Stable Video Diffusion（SVD

Stable Diffusion 背后公司 Stability AI 又上新了。

這次帶來的是圖生 3D 方面的新進展：

基于 Stable Video Diffusion 的 Stable Video 3D（SV3D），只用一張圖片就能生成高質量 3D 網格。

Stable Video Diffusion（SVD）是 Stability AI 此前推出的高分辨率視頻生成模型。也就是說，此番登場的 SV3D 首次將視頻擴散模型應用到了 3D 生成領域。

官方表示，基于此，SV3D 大大提高了 3D 生成的質量和視圖一致性。

模型權重依然開源，不過僅可用于非商業用途，想要商用的話還得買個 Stability AI 會員~

話不多說，還是來扒一扒論文細節。

將視頻擴散模型用于 3D 生成

引入潛在視頻擴散模型，SV3D 的核心目的是利用視頻模型的時間一致性來提高 3D 生成的一致性。

并且視頻數據本身也比 3D 數據更容易獲得。

Stability AI 這次提供兩個版本的 SV3D：

SV3D_u：基于單張圖像生成軌道視頻。

SV3D_p：擴展了 SV3D_u 的功能，可以根據指定的相機路徑創建 3D 模型視頻。

研究人員還改進了 3D 優化技術：采用由粗到細的訓練策略，優化 NeRF 和 DMTet 網格來生成 3D 對象。

他們還設計了一種名為掩碼得分蒸餾采樣（SDS）的特殊損失函數，通過優化在訓練數據中不直接可見的區域，來提高生成 3D 模型的質量和一致性。

同時，SV3D 引入了一個基于球面高斯的照明模型，用于分離光照效果和紋理，在保持紋理清晰度的同時有效減少了內置照明問題。

具體到架構方面，SV3D 包含以下關鍵組成部分：

UNet：SV3D 是在 SVD 的基礎上構建的，包含一個多層 UNet，其中每一層都有一系列殘差塊（包括 3D 卷積層）和兩個分別處理空間和時間信息的 Transformer 模塊。

條件輸入：輸入圖像通過 VAE 編碼器嵌入到潛在空間中，會和噪聲潛在狀態合并，一起輸入到 UNet 中；輸入圖像的 CLIP 嵌入矩陣則被用作每個 Transformer 模塊交叉注意力層的鍵值對。

相機軌跡編碼：SV3D 設計了靜態和動態兩種類型的軌道來研究相機姿態條件的影響。靜態軌道中，相機以規律間隔的方位角圍繞對象；動態軌道則允許不規則間隔的方位角和不同的仰角。

相機的運動軌跡信息和擴散噪聲的時間信息會一起輸入到殘差模塊中，轉換為正弦位置嵌入，然后這些嵌入信息會被整合并進行線性變換，加入到噪聲時間步長嵌入中。

這樣的設計旨在通過精細控制相機軌跡和噪聲輸入，提升模型處理圖像的能力。

此外，SV3D 在生成過程中采用 CFG（無分類器引導）來控制生成的清晰度，特別是在生成軌道的最后幾幀時，采用三角形 CFG 縮放來避免過度銳化。

研究人員在 Objaverse 數據集上訓練 SV3D，圖像分辨率為 575×576，視場角為 33.8 度。論文透露，所有三種模型（SV3D_u，SV3D_c，SV3D_p）在 4 個節點上訓練了 6 天左右，每個節點配備 8 個 80GB 的 A100 GPU。

實驗結果

在新視角合成（NVS）和 3D 重建方面，SV3D 超過了現有其他方法，達到 SOTA。

從定性比較的結果來看，SV3D 生成的多視角試圖，細節更豐富，更接近與原始輸入圖像。也就是說，SV3D 在理解和重構物體的 3D 結構方面，能夠更準確地捕捉到細節，并保持視角變換時的一致性。

這樣的成果，引發了不少網友的感慨：

可以想象，在未來 6-12 個月內，3D 生成技術將會被用到游戲和視頻項目中。

評論區也總少不了一些大膽的想法……

并且項目開源嘛，已經有第一波小伙伴玩上了，在 4090 上就能跑起來。

如果你也有第一手實測體會，歡迎在評論區分享~

參考鏈接：

[1]https://twitter.com/StabilityAI/status/1769817136799855098

[2]https://stability.ai/news/introducing-stable-video-3d

[3]https://sv3d.github.io/index.html

本文來自微信公眾號：量子位（ID：QbitAI），作者：魚羊

本文鏈接：http://www.www897cc.com/showinfo-45-3659-0.htmlStability AI 開源上新：3D 生成引入視頻擴散模型，質量一致性 up，4090 可玩

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： OpenAI CEO 阿爾特曼：GPT-4“有點糟糕”，今年將推出新模型

下一篇：阿里大模型產品“通義聽悟”升級：超長視頻自由問，還會做思維導圖

標簽：

熱門焦點

清華、北大等86所高校布局元宇宙，是風口還是噱頭？

作者：徐賜豪來源：區塊鏈日報據全國高校人工智能與大數據創新聯盟元宇宙專委會不完全統計，截至2023年7月，全國共有86所高校戰略布局元宇宙領域，其中本科院校73所，高職專科院校13所
元宇宙的文旅賽道，還能如何發力？

來源：X增強現實蘋果推出Vision Pro，為XR行業注入一劑強心針。而在蘋果開發者大會上迪士尼CEO鮑勃·艾格在宣布迪士尼與蘋果達成合作，其Disney+流媒體服務將于Vision Pro
企業熱、用戶冷，元宇宙第一站將是“營銷場”？

如果說2021年底什么最火熱，那元宇宙當之無愧?！叭f物皆可元宇宙”似乎成為新的流行語，在廣告中也常常聽到“社交元宇宙”“購物元宇宙”等等。就在近日，有消息傳
Niantic與索尼在音頻AR領域達成合作；?蘋果為Apple Park申請形象化商標

今日熱點：迪士尼任命新高管負責元宇宙業務；iFixit成為Valve Index VR頭顯和Steam Deck首家零件銷售商；Niantic與索尼達成合作，將為AR游戲《Ingress》帶來音頻體驗；V
高通成立歐洲XR實驗室；ICICB計劃進軍元宇宙......

擴展現實（XR）通過計算機將真實與虛擬相結合，打造了一個可人機交互的虛擬環境，將AR、VR、MR多種技術相融合，為體驗者帶來了虛擬世界與現實世界之間無縫轉換的“沉浸
字節覓《原神》，騰訊元宇宙，游戲新王戰舊神？

文 | 陳橋輝陳奕迅的《紅玫瑰》中有一句歌詞，“得不到的永遠在騷動”，這句話用到如今國內頭部游戲平臺再合適不過。隨著《原神》的異軍突起，使得頭部游戲大廠感受
小眾有趣NFT藝術作品欣賞（1）

隨著NFT發展火熱，越來越多領域與NFT融合，NFT藝術在加密領域中占據了很大一部分。NFT藝術與傳統藝術有相似之處，也有完全不同的地方。NFT藝術與傳統藝術一樣，表現了
a16z：元宇宙辦公會取代實體辦公室嗎？

6位不同的專家對未來的工作發表看法----元宇宙--沉浸式的、基于區塊鏈的虛擬世界，大多數日?；顒幼罱K會在這里發生--但仍然只是一個概念。但它是一個擁有寶貴不
元宇宙存在的意義和價值

科技公司目前都在猶豫，看誰能在元宇宙上押下更大的賭注。然而，除了巨額的資金投入，到底要怎樣才能獲勝在很大程度上還沒有得到證實。它是否僅僅是對當前數字景觀

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

Stability AI 開源上新：3D 生成引入視頻擴散模型，質量一致性 up，4090 可玩

清華、北大等86所高校布局元宇宙，是風口還是噱頭？

元宇宙的文旅賽道，還能如何發力？

企業熱、用戶冷，元宇宙第一站將是“營銷場”？

Niantic與索尼在音頻AR領域達成合作；?蘋果為Apple Park申請形象化商標

高通成立歐洲XR實驗室；ICICB計劃進軍元宇宙......

字節覓《原神》，騰訊元宇宙，游戲新王戰舊神？

小眾有趣NFT藝術作品欣賞（1）

a16z：元宇宙辦公會取代實體辦公室嗎？

元宇宙存在的意義和價值

最新推薦

AI網紅能年賺百萬，普通人的新機會來了？

刷完一場元宇宙世界杯音樂盛典，我爽了

2022年中國元宇宙產業系列研究報告-基礎設施篇（5）

DAO登上了歷史舞臺，但是主流準備好采用DAO了嗎？

技術賦能，國內首家寵物元宇宙平臺“Pet Meta”開啟虛擬養寵新方式

3月份值得關注的5個NFT項目

猜你喜歡

熱門推薦

相關資訊

Stability AI 開源上新：3D 生成引入視頻擴散模型，質量一致性 up，4090 可玩

最新推薦

猜你喜歡

熱門推薦

相關資訊

Stability AI 開源上新：3D 生成引入視頻擴散模型，質量一致性 up，4090 可玩