日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 軟件

LLM生成3D場景,無限延伸!斯坦福華人提出3D動畫生成框架,一句話一幅圖創造無限3D世界

來源: 責編: 時間:2023-12-14 16:37:33 240觀看
導讀斯坦福華人退學博士開發的Pika,讓AI技術和藝術迸發出了絢麗的火花。最近,又有斯坦福的華人研究人員提出的新的框架——WonderJourney,可以用一句話或者一張圖,自動生成一系列3D場景的連續畫面,效果炫酷!圖片用一張愛麗絲奇

斯坦福華人退學博士開發的Pika,讓AI技術和藝術迸發出了絢麗的火花。Dyk28資訊網——每日最新資訊28at.com

最近,又有斯坦福的華人研究人員提出的新的框架——WonderJourney,Dyk28資訊網——每日最新資訊28at.com

可以用一句話或者一張圖,自動生成一系列3D場景的連續畫面,效果炫酷!Dyk28資訊網——每日最新資訊28at.com

圖片圖片Dyk28資訊網——每日最新資訊28at.com

用一張愛麗絲奇境漫游的圖片,就能生成一段真的愛麗絲漫游的夢境經歷。Dyk28資訊網——每日最新資訊28at.com

或者,用一首陸游的《游山西村》,可以生成一段水墨風格的詩詞夢境:Dyk28資訊網——每日最新資訊28at.com

莫笑農家臘酒渾,豐年留客足雞豚。 山重水復疑無路,柳暗花明又一村。 簫鼓追隨春社近,衣冠簡樸古風存。 從今若許閑乘月,拄仗無時夜扣門Dyk28資訊網——每日最新資訊28at.com

圖片圖片Dyk28資訊網——每日最新資訊28at.com

項目網址:https://kovenyu.com/WonderJourney/Dyk28資訊網——每日最新資訊28at.com

圖片圖片Dyk28資訊網——每日最新資訊28at.com

論文地址:https://arxiv.org/abs/2312.03884Dyk28資訊網——每日最新資訊28at.com

WonderJourney是一個用于永久場景生成的模塊化框架。Dyk28資訊網——每日最新資訊28at.com

與之前專注于單一類型場景的視圖生成框架不同,WonderJourney可以從用戶提供的任何位置(通過文本描述或圖像)開始,并通過一長串不同但連貫相連的3D場景生成旅程。Dyk28資訊網——每日最新資訊28at.com

作者利用LLM來生成場景的文本描述,利用文本驅動的點云生成管道,來制作漂亮且連貫的3D場景序列,并利用大型VLM(視覺語言模型)來驗證生成的場景。Dyk28資訊網——每日最新資訊28at.com

No, no! The adventures first, explanations take such a dreadful time. --- Alice's Adventures in WonderlandDyk28資訊網——每日最新資訊28at.com

——作者表示,不解釋了,趕緊先看效果!Dyk28資訊網——每日最新資訊28at.com

首先展示從任意位置開始,沿著攝像機軌跡生成一系列不同但連貫的3D場景。Dyk28資訊網——每日最新資訊28at.com

圖片圖片Dyk28資訊網——每日最新資訊28at.com

以上圖中的場景為起點,WonderJourney進行了延伸和想象:Dyk28資訊網——每日最新資訊28at.com

圖片圖片Dyk28資訊網——每日最新資訊28at.com

確實連貫且優美,從鬧市到亭臺山水,不得不說,AI的想象力真的有點東西。Dyk28資訊網——每日最新資訊28at.com

然后展示WonderJourney合成長篇視頻的能力:Dyk28資訊網——每日最新資訊28at.com

圖片圖片Dyk28資訊網——每日最新資訊28at.com

雖然有瑕疵,并且建筑風格不太統一,但小編覺得最后視角突然進入房間,算是很有意思的安排。Dyk28資訊網——每日最新資訊28at.com

接下來,從同一地點開始,WonderJourney可以生成一組不同的「wonderjourneys」,——即不同的發展方向,在不同的目的地結束。這里使用相機姿勢的軌跡來渲染視頻。Dyk28資訊網——每日最新資訊28at.com

圖片圖片Dyk28資訊網——每日最新資訊28at.com

圖片圖片Dyk28資訊網——每日最新資訊28at.com

——小編稱之為”AI的平行世界“。Dyk28資訊網——每日最新資訊28at.com

最后,WonderJourney還可以根據一系列文本描述(例如詩歌、俳句和故事摘要)生成受控的wonderjourneys,也就是文生視頻的能力。Dyk28資訊網——每日最新資訊28at.com

首先是一首古詩:Dyk28資訊網——每日最新資訊28at.com

圖片圖片Dyk28資訊網——每日最新資訊28at.com

雙飛燕子幾時回,夾岸桃花蘸水。開春雨斷橋人不渡,小舟撐出柳陰來。Dyk28資訊網——每日最新資訊28at.com

燕子、桃花、水流、小舟,也是該有的意象都有了。Dyk28資訊網——每日最新資訊28at.com

然后是日文的俳句,小編實在不懂日文,就把原文放在下面了:Dyk28資訊網——每日最新資訊28at.com

圖片圖片Dyk28資訊網——每日最新資訊28at.com

圖片圖片Dyk28資訊網——每日最新資訊28at.com

雖然不懂,但「遠山」、「日」、「枯野」咱還是能看出來的。Dyk28資訊網——每日最新資訊28at.com

最后是英文場景下的故事摘要,這里描繪的是詩歌Jabberwocky(龍)中的場景(Fighting...Hero returns...Storyteller...):Dyk28資訊網——每日最新資訊28at.com

圖片圖片Dyk28資訊網——每日最新資訊28at.com

戰斗、英雄凱旋、最后是講故事的人。Dyk28資訊網——每日最新資訊28at.com

不知道大家有沒有發現,三種語言畫出來的風格完全不同。中文是水墨畫,日文有點像浮世繪,英文有一點點油畫的感覺。Dyk28資訊網——每日最新資訊28at.com

論文細節Dyk28資訊網——每日最新資訊28at.com

在《愛麗絲夢游仙境》中,故事開始于愛麗絲掉進兔子洞,進入一個陌生而迷人的仙境。Dyk28資訊網——每日最新資訊28at.com

在穿越這個仙境的旅程中,愛麗絲遇到了許多神奇的角色,如柴郡貓和瘋帽子,以及茶話會和玫瑰園等奇特的場景——最終在皇宮結束。Dyk28資訊網——每日最新資訊28at.com

這些角色和場景結合在一起,形成了一個引人入勝的世界,多年來吸引了無數讀者。Dyk28資訊網——每日最新資訊28at.com

在本文中,作者遵循這一創意,探索現代計算機視覺和人工智能模型,如何同樣生成如此有趣和多樣化的視覺世界,用戶可以穿越這些世界,就像愛麗絲在仙境中的冒險一樣。Dyk28資訊網——每日最新資訊28at.com

圖片圖片Dyk28資訊網——每日最新資訊28at.com

為了實現這個目標,作者引入了永久3D場景生成。Dyk28資訊網——每日最新資訊28at.com

這項工作的目標是,從單個圖像或語言描述的任意位置開始,合成一系列不同的3D場景。Dyk28資訊網——每日最新資訊28at.com

生成的3D場景沿著遠程攝像機軌跡連貫連接,穿過各種合理的地方,使用一系列不同的場景渲染視頻,以模擬在虛構的“仙境”中旅行的視覺體驗。Dyk28資訊網——每日最新資訊28at.com

永久3D場景生成的主要挑戰集中在,生成多樣化但合理的場景元素上。這些場景元素需要通過連貫連接的3D場景來支持路徑的形成,Dyk28資訊網——每日最新資訊28at.com

包括可以被觀察到的場景中的各種對象、背景和布局,并自然地過渡到下一個但未觀察到的場景。Dyk28資訊網——每日最新資訊28at.com

圖片圖片Dyk28資訊網——每日最新資訊28at.com

WonderJourney的生成過程可以分解為:確定要為給定場景生成哪些對象,在哪里生成這些對象,以及這些場景如何以幾何方式相互連接。Dyk28資訊網——每日最新資訊28at.com

確定要生成哪些元素需要對場景進行語義理解(比如,獅子可能不太適合廚房);確定在哪里生成需要關于視覺世界的常識(比如,獅子不應該漂浮在天空中);Dyk28資訊網——每日最新資訊28at.com

此外,在新的連接場景中生成這些元素需要幾何理解(比如,遮擋和無遮擋、視差和適當的空間布局)。Dyk28資訊網——每日最新資訊28at.com

WonderJourney利用LLM生成一長串場景描述,然后使用文本驅動的視覺場景生成模塊,生成一系列彩色點云來表示連續的3D場景。Dyk28資訊網——每日最新資訊28at.com

在這里,LLM提供常識和語義推理;視覺模塊提供視覺和幾何理解以及適當的3D效果。Dyk28資訊網——每日最新資訊28at.com

最后,利用VLM來驗證生成,并在檢測到不需要的視覺效果時,啟動重新生成。Dyk28資訊網——每日最新資訊28at.com

圖片圖片Dyk28資訊網——每日最新資訊28at.com

上圖展示了WonderJourney框架和跨模塊的工作流程。Dyk28資訊網——每日最新資訊28at.com

WonderJourney框架是完全模塊化的,每個模塊都可以由最好的預訓練模型實現。Dyk28資訊網——每日最新資訊28at.com

WonderJourney框架包含三個核心組件:一個用于生成場景描述的LLM,一個用于生成連貫3D場景的文本驅動的視覺模塊,以及一個用于驗證生成場景的VLM。Dyk28資訊網——每日最新資訊28at.com

方法

WonderJourney的主要思想是生成下一個場景所包含的視覺元素的文字描述,然后使用一個文本引導的視覺生成模塊來制作三維場景。Dyk28資訊網——每日最新資訊28at.com

WonderJourney將整個生成任務分解為場景描述生成、視覺場景生成和視覺驗證。Dyk28資訊網——每日最新資訊28at.com

給定輸入圖像或文本,首先通過使用文本到圖像模型生成圖像,或使用VLM生成描述,將其與其他模態配對。Dyk28資訊網——每日最新資訊28at.com

然后,通過LLM生成下一個場景描述。視覺場景生成模塊接收下一個場景描述和當前場景圖像,生成下一個由彩色點云表示的 3D 場景。Dyk28資訊網——每日最新資訊28at.com

之后,VLM會檢查此生成過程,以確保沒有不良影響,否則會重新生成。Dyk28資訊網——每日最新資訊28at.com

場景描述生成

這里定義場景描述圖片,它由一個在場景中保持一致的樣式S、場景中的對象O和一個描述場景背景的簡潔標題B組成。Dyk28資訊網——每日最新資訊28at.com

利用LLM輸出自然語言描述,然后使用詞匯類別過濾器來處理O和B的原始文本,只保留實體的名詞和屬性的形容詞。Dyk28資訊網——每日最新資訊28at.com

從經驗上講,與要求LLM直接輸出這種結構化描述相比,本文的做法會產生更連貫的連接場景。Dyk28資訊網——每日最新資訊28at.com

視覺場景生成

視覺場景生成器包括免學習操作,例如透視取消投影和渲染,以及使用參數化(預訓練)視覺模型的組件,包括深度估計器、基于分割的深度精簡器和文本條件圖像Inpainter。Dyk28資訊網——每日最新資訊28at.com

將圖像提升到點云:給定由圖像表示的當前場景,通過估計深度將其提升到3D,并使用針孔相機模型將其取消投影。Dyk28資訊網——每日最新資訊28at.com

實驗中使用了MIDAS v3.1,是目前最先進的深度估計器之一。Dyk28資訊網——每日最新資訊28at.com

現有的單目深度估計器有兩個共同的問題:Dyk28資訊網——每日最新資訊28at.com

首先,深度不連續性沒有得到很好的建模,導致物體邊界的深度邊緣過于平滑。Dyk28資訊網——每日最新資訊28at.com

其次,天空的深度總是被低估。Dyk28資訊網——每日最新資訊28at.com

為了解決這兩個問題,這里引入了一種利用像素分組分割,和天空分割的深度細化過程。Dyk28資訊網——每日最新資訊28at.com

為了增強跨對象邊界的深度不連續性,當元素的視差范圍有限時,使用正面平面對場景元素進行建模。Dyk28資訊網——每日最新資訊28at.com

圖片圖片Dyk28資訊網——每日最新資訊28at.com

上圖展示了視覺場景生成模塊。每個箭頭代表一個參數化視覺模型(比如深度估計器)或一個操作(比如渲染)。Dyk28資訊網——每日最新資訊28at.com

針對具有不同風格的一般場景,本文使用視差范圍的標準來保持估計的深度,而不是選擇語義類。Dyk28資訊網——每日最新資訊28at.com

對于天空深度,這里使用 OneFormer來分割天空區域,并刪除沿天空邊界的點。Dyk28資訊網——每日最新資訊28at.com

此外,作者發現遠處像素的深度通常不可靠。因此,文中還設置了一個深度為F的遠背景平面,該平面切斷了超出該深度的所有像素的深度。Dyk28資訊網——每日最新資訊28at.com

作者沿著連接新場景和當前場景的攝像機軌跡,放置一個額外的攝像機,在該攝像機上渲染部分圖像,對圖像進行涂色,并將附加點添加到點云中。Dyk28資訊網——每日最新資訊28at.com

在實踐中,保持較大的點云,會導致在生成高分辨率場景的長軌跡時,需要大量GPU內存的點太多。Dyk28資訊網——每日最新資訊28at.com

視覺驗證

根據經驗,在生成的大部分照片和繪畫中,會出現畫框或照片邊框,從而破壞了幾何圖形的一致性。Dyk28資訊網——每日最新資訊28at.com

此外,在生成的圖像邊界附近經常存在不需要的模糊失焦對象。Dyk28資訊網——每日最新資訊28at.com

因此,文中加入一個驗證步驟,來識別和拒絕這些不需要的生成場景。Dyk28資訊網——每日最新資訊28at.com

這里將其表述為基于文本的檢測問題,目標是在生成的場景圖像中檢測一組預定義的不良效果。Dyk28資訊網——每日最新資訊28at.com

如果檢測到任何不良影響,框架會拒絕并重新生成場景圖像。Dyk28資訊網——每日最新資訊28at.com

圖片圖片Dyk28資訊網——每日最新資訊28at.com

上圖展示了從同一輸入圖像生成的不同旅程的定性結果,表明 WonderJourney 產生的結果表現良好。Dyk28資訊網——每日最新資訊28at.com

實驗
Dyk28資訊網——每日最新資訊28at.com

由于永久3D場景生成是一項沒有現有數據集的新任務,因此這里混合使用人工拍攝的照片、來自網絡的無版權照片和生成的示例,用于實驗評估,并通過DALL·E 3執行文本到圖像配對的過程。Dyk28資訊網——每日最新資訊28at.com

論文使用兩種最先進的永久視圖生成方法作為基準:基于圖像的InfiniteNature-Zero和基于文本的SceneScape。Dyk28資訊網——每日最新資訊28at.com

圖片圖片Dyk28資訊網——每日最新資訊28at.com

上圖定性地展示了跨不同場景和不同風格生成旅程的示例。其中前兩行輸入是真實拍攝的照片。Dyk28資訊網——每日最新資訊28at.com

這些結果表明,WonderJourney能夠從各種類型的輸入圖像中生成多樣化但連貫連接的場景。Dyk28資訊網——每日最新資訊28at.com

圖片圖片Dyk28資訊網——每日最新資訊28at.com

上圖展示了WonderJourney與InfiniteNature-Zero和SceneScape的比較。Dyk28資訊網——每日最新資訊28at.com

由于InfiniteNature-Zero是在自然照片上訓練的,因此實驗僅使用逼真的自然圖像作為輸入對其進行比較。Dyk28資訊網——每日最新資訊28at.com

WonderJourney以創意和娛樂為目的,因此這里專注于人類偏好評估作為量化的指標,使用以下四個軸:單次旅程中生成場景的多樣性、視覺質量、場景復雜性和整體趣味性。Dyk28資訊網——每日最新資訊28at.com

實驗招募了400名參與者,其中200名用于評價與InfiniteNatureZero相比的情況,另外200名用于比較SceneScape的情況。Dyk28資訊網——每日最新資訊28at.com

每個參與者回答12個問題(例如“比較下面的兩個視頻。哪個視頻具有更高的多樣性?)。Dyk28資訊網——每日最新資訊28at.com

圖片圖片Dyk28資訊網——每日最新資訊28at.com

如上表所示,在所有四個軸上,WonderJourney都比兩個基線都更受歡迎。Dyk28資訊網——每日最新資訊28at.com

InfiniteNature-Zero僅合成自然場景,而WonderJourney則生成更多樣化的場景和對象,例如登山者和房屋,這些場景和對象與初始自然場景自然相連。Dyk28資訊網——每日最新資訊28at.com

由于使用了紋理網格,SceneScape傾向于生成類似洞穴的場景,因此所有示例都會收斂到洞穴中。此外,SceneScape往往不會生成新對象。所以用戶對WonderJourney的偏好更高。Dyk28資訊網——每日最新資訊28at.com

參考資料:Dyk28資訊網——每日最新資訊28at.com

https://arxiv.org/pdf/2312.03884.pdfDyk28資訊網——每日最新資訊28at.com

https://kovenyu.com/wonderjourney/Dyk28資訊網——每日最新資訊28at.com


Dyk28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-26-45489-0.htmlLLM生成3D場景,無限延伸!斯坦福華人提出3D動畫生成框架,一句話一幅圖創造無限3D世界

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: Python中Del語句,你真的了解了嗎

下一篇: 終于要改進東亞語言如中文的排版體驗了,CSS中引入四個新的國際功能

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 镇平县| 双牌县| 卓资县| 屏东县| 恭城| 浑源县| 平武县| 平阳县| 错那县| 达尔| 襄樊市| 通化县| 秦安县| 馆陶县| 盐山县| 永清县| 榕江县| 游戏| 闵行区| 永平县| 新田县| 博爱县| 墨竹工卡县| 梧州市| 湛江市| 太谷县| 常州市| 丽水市| 滦平县| 崇州市| 临漳县| 呼伦贝尔市| 龙口市| 永吉县| 安义县| 云浮市| 邵武市| 常德市| 沈丘县| 阳山县| 怀柔区|