日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

“文生圖”再升級!學習個性化參照,無限生成多樣圖片,輕松設計玩具建筑

來源: 責編: 時間:2024-01-22 08:39:10 313觀看
導讀 新智元報道編輯:LRS【新智元導讀】將圖片集反演到語義空間的分布,生成多樣個性化圖片或 3D 渲染,支持靈活文本編輯、多樣性控制、概念混合等。最近,來自南加州大學、哈佛大學等機構的研究團隊提出了一種全新的基

新智元報道Xvc28資訊網——每日最新資訊28at.com

編輯:LRSXvc28資訊網——每日最新資訊28at.com

【新智元導讀】將圖片集反演到語義空間的分布,生成多樣個性化圖片或 3D 渲染,支持靈活文本編輯、多樣性控制、概念混合等。Xvc28資訊網——每日最新資訊28at.com

最近,來自南加州大學、哈佛大學等機構的研究團隊提出了一種全新的基于提示學習的方法 ——DreamDistribution。Xvc28資訊網——每日最新資訊28at.com

這種方法可以讓任何基于文字提示的生成模型(比如文生圖、文生 3D 等),通過一組參照圖片來學習對應的視覺屬性共性和變化的文本提示分布。Xvc28資訊網——每日最新資訊28at.com

Xvc28資訊網——每日最新資訊28at.com

論文地址:https://arxiv.org/ abs / 2312.14216Xvc28資訊網——每日最新資訊28at.com

項目主頁:https://briannlongzhao.github.io/ DreamDistribution/Xvc28資訊網——每日最新資訊28at.com

代碼鏈接:https://github.com/ briannlongzhao / DreamDistributionXvc28資訊網——每日最新資訊28at.com

不僅如此,學習到的提示分布可以用來生成近似于參照圖片但更具多樣性的圖片,同時也支持調整分布的方差來控制多樣性,結合多個提示分布生成混合概念圖片等操作。Xvc28資訊網——每日最新資訊28at.com

簡單來說就是,僅用幾張到十幾張參照圖片就能無限生成符合參照圖片視覺效果并具有顯著多樣性的圖片,輕松生成高達玩具模型多樣新設計!Xvc28資訊網——每日最新資訊28at.com

Xvc28資訊網——每日最新資訊28at.com

在 3D 生成模型上即插即用,還可以生成不同樣式的跑車,建筑等:Xvc28資訊網——每日最新資訊28at.com

Xvc28資訊網——每日最新資訊28at.com

同樣支持類似于 Textual Inversion,DreamBooth 的文本引導編輯能力:Xvc28資訊網——每日最新資訊28at.com

Xvc28資訊網——每日最新資訊28at.com

在 3D 生成上同樣具有編輯能力:Xvc28資訊網——每日最新資訊28at.com

Xvc28資訊網——每日最新資訊28at.com

在訓練后支持控制生成的多樣性的操作(第二行向下多樣性增加):Xvc28資訊網——每日最新資訊28at.com

Xvc28資訊網——每日最新資訊28at.com

支持多種概念的混合:Xvc28資訊網——每日最新資訊28at.com

Xvc28資訊網——每日最新資訊28at.com

如下圖所示,用戶只需提供一組參照圖片,比如不同的高達玩具圖像,DreamDistribution 就可以學習到一個對應于這一組圖片的文本提示分布 D*。Xvc28資訊網——每日最新資訊28at.com

Xvc28資訊網——每日最新資訊28at.com

然后,在推理時通過從 D * 中采樣,生成有足夠變化和多樣性的分布內輸出圖像。Xvc28資訊網——每日最新資訊28at.com

此外,D * 同樣支持由文本引導的編輯來生成圖像的變化,比如從 Jumping D * 的提示分布中采樣即可生成跳躍姿勢的高達玩具圖片等等。Xvc28資訊網——每日最新資訊28at.com

由于方法相對獨立于下游的生成模型,學習到的提示分布同樣適用于其他基于文本提示的生成任務。Xvc28資訊網——每日最新資訊28at.com

除了展示中基于 MVDream 文本到 3D 生成作為例子,通過類似的提示修改也可生成具有適當變化的符合文本提示的 3D 模型渲染。Xvc28資訊網——每日最新資訊28at.com

研究動機

在擴散生成模型日益蓬勃發展的今天,視覺生成的質量隨之提高。Xvc28資訊網——每日最新資訊28at.com

最先進的圖片生成模型,如 DALL?E,Imagen,Stable Diffusion,MidJourney 等系列的文本生成圖像模型,已經可以生成非常高質量的圖片。Xvc28資訊網——每日最新資訊28at.com

但同時,由于文本提示很難概括視覺概念上的細節,一些研究如 Textual Inversion,DreamBooth 等通過圖片引導的方法追求模型生成的可控性以及個性化(personalization / customization)能力,即根據參照圖片使生成模型理解一個個性化概念,如特定的一條寵物狗,一個特定的玩具,等等,再通過文字引導的提示編輯來生成基于個性化概念變化的圖片。Xvc28資訊網——每日最新資訊28at.com

然而,這些方法都著重于個性化一個具體的實例,但在很多情況下用戶可能需要個性化一個更抽象的視覺特征并生成新的實例,比如生成設計風格一致的新高達玩具,或者相似畫風的新卡通角色、新畫作、等等。Xvc28資訊網——每日最新資訊28at.com

如果使用已有的實例層面的個性化方法則很難生成不同于參照圖片中給定的實例的圖片,并且如果參考圖片表述的并非同一個實例時,現有的實例層面的個性化方法則無法捕捉到參考圖片中的變化,并在生成過程中導致有限的多樣性。Xvc28資訊網——每日最新資訊28at.com

方法概述

DreamDistribution 訓練方法主要分為三部分。Xvc28資訊網——每日最新資訊28at.com

1. 基于類似 Textual Inversion 的提示學習的方法,只更新固定長度的提示嵌入,凍結其余下游文本編碼器以及擴散模型的參數。Xvc28資訊網——每日最新資訊28at.com

2. 在提示學習的基礎上,引入了提示分布學習,即保存多個長度相同的文本提示嵌入,并在語義空間內用這些提示的語義特征去擬合一個提示的高斯分布。Xvc28資訊網——每日最新資訊28at.com

同時為保證不同的提示在語義空間內的特征不同,引入了正交損失項(Orthogonal Loss)去最小化不同提示之間在語義空間內的的余弦相似度。Xvc28資訊網——每日最新資訊28at.com

3. 為了優化整體分布,使用了重參數的方法進行多次可導采樣,最后的損失函數為與訓練下游生成模型相同的圖片重建損失或噪聲預測的均方損失函數,以及由超參數控制的正交損失函數。Xvc28資訊網——每日最新資訊28at.com

推理時即可直接從學習到的文本提示分布中采樣,作為下游生成模型的提示輸入來輸出圖片。Xvc28資訊網——每日最新資訊28at.com

Xvc28資訊網——每日最新資訊28at.com

如果需要進行文本引導的提示修改,則對所有提示在嵌入空間加同樣的文本前綴或后綴,并重新在語義特征空間擬合高斯分布并采樣作為下游生成模型的輸入。Xvc28資訊網——每日最新資訊28at.com

實驗和結果多樣個性化生成

我們首先展示方法生成多樣的個性化圖像的能力。通過 DreamDistribution 生成的圖像保留了訓練圖片中的共有視覺特征,同時與訓練圖片不同并且具有高多樣性。Xvc28資訊網——每日最新資訊28at.com

給定一組不容易用文本描述,但同時具有一些相似的視覺屬性的訓練圖像(通常為 5-20 張),可以通過簡單地從學習的分布中采樣作為輸入提示生成多樣化的分布內圖像。Xvc28資訊網——每日最新資訊28at.com

因此,學習到的提示分布可以被視為與訓練圖像集相對應的描述的分布。Xvc28資訊網——每日最新資訊28at.com

對比基線

我們與流行的實例級個性化方法進行比較,包括 Textual Inversion、DreamBooth、Custom Diffusion。Xvc28資訊網——每日最新資訊28at.com

我們還對比了使用簡短描述作為文本提示的方法,以及使用詳細描述的長文本作為提示的方法。這些比較強調了我們的方法在處理訓練圖像的相似性和多樣性方面的能力。Xvc28資訊網——每日最新資訊28at.com

使用相同的預訓練 Stable Diffusion 版本 2.1,并且使用基線工作中提供的默認超參數。Xvc28資訊網——每日最新資訊28at.com

對比結果

下圖顯示了與基線方法的可視化比較。無論是短文本提示方法還是長文本提示方法,在視覺上都無法生成與參照圖片相符的結果,因為預訓練的生成模型所理解的名詞很可能與參照圖像有偏差,而且參照圖像的細節很難用語言描述。Xvc28資訊網——每日最新資訊28at.com

使用基線個性化方法生成的圖像通常在所有示例中顯示有限的變化或與參照圖片不一致的視覺屬性。這些方法都嘗試將圖片中的概念與單個固定的提示嵌入關聯起來,所以在語義上固定的嵌入缺少變化。Xvc28資訊網——每日最新資訊28at.com

盡管去噪的過程能夠引入一些隨機性,但由于訓練目標是將各種不同的概念與同一個固定的嵌入建立聯系,這將導致 1)提示嵌入欠擬合并且僅學習到一個過于廣泛的概念,比如物體類別的名詞本身,從而導致生成出的圖片與參照圖片不符(如下圖中間一列倒數第 2,4 行),或者 2)擬合于訓練圖像的某一個特定的視覺上的組合,從而導致生成圖像缺乏多樣性(如下圖左列倒數第 2,3,4 行)。Xvc28資訊網——每日最新資訊28at.com

通過使用多個提示模型和優化提示分布來建模多個概念,我們提出的方法能夠產生更多樣的外觀,視角等實質性變化,例如左列最后一行。我們的方法還可以建模材質和背景信息,并生成顏色和姿態方面具有顯著變化的新實例,如中間列示例中最后一行所示。Xvc28資訊網——每日最新資訊28at.com

Xvc28資訊網——每日最新資訊28at.com

以及線條、整體風格等變化,并生成像右列中最后一行展示的新涂鴉創作。總體而言,DreamDistribution 能夠生成在顏色,視角、姿態、布局,細節設計等方面產生實質性的變化的圖像,同時保持與參照圖像相符的適當視覺屬性。Xvc28資訊網——每日最新資訊28at.com

質量和多樣性評估

我們在多樣性和質量方面進行了定量評估,在包括真實物體照片(大尺度和小尺度)、著名藝術家的作品,具有顯著風格的卡通人物插畫以及在線社區插畫師的作品等 12 種多樣化圖像場景上訓練了 DreamBooth、Textual Inversion、Custom Diffusion 和 DreamDistribution。Xvc28資訊網——每日最新資訊28at.com

自動評估指標

我們使用既定的自動評估指標對生成圖像進行評估,這些指標衡量了合成圖像的多樣性和真實圖像之間的相似性。Xvc28資訊網——每日最新資訊28at.com

在下表中,使用 FID、CLIP-I 和 DINO 等流行指標來評估圖像質量。我們的方法在所有三個質量度量中均達到最佳質量,表明我們的方法能夠創建更多滿足提示要求的高質量圖像。Xvc28資訊網——每日最新資訊28at.com

Xvc28資訊網——每日最新資訊28at.com

此外,在表 1 中報告了 Density 和 Coverage 指標。Density 衡量真實樣本密集聚集的區域,而 Coverage 計算真實樣本領域中包含至少一個生成樣本的比例,反映圖片的多樣程度。我們的方法在整體上實現了最佳的覆蓋率和多樣性。Xvc28資訊網——每日最新資訊28at.com

人類評估

我們進行了基于 12 組參考圖像的人工評估。對于每個參考圖像集,我們分別使用基線方法和我們的方法生成圖像,每種方法生成 40 張圖像,總計 1,920 張圖像。我們指派了 10 位獨立的注釋者。Xvc28資訊網——每日最新資訊28at.com

對于這 12 個參考集中的每一個,注釋者被要求根據他們對生成圖像與參考集的相似性以及生成集內的多樣性的感知,選擇最傾向的生成圖像集。Xvc28資訊網——每日最新資訊28at.com

這些方法是匿名的,因此注釋者不知道哪個生成集對應于哪種方法。我們收集了總共 120 個樣本并統計了偏好的頻率。與三個基線模型相比,我們生成的圖像在多樣性方面表現整體更好。Xvc28資訊網——每日最新資訊28at.com

提示分布的可控性

下圖展示了更多文本引導的提示編輯生成結果。Xvc28資訊網——每日最新資訊28at.com

Xvc28資訊網——每日最新資訊28at.com

除了文本引導的提示編輯,學習到的提示分布還可以通過縮放方差來控制生成的多樣性。如下圖所示,當縮放系數 γ 變大時,生成的圖像更具隨機性,而縮放系數等于 0 時則生成圖片的多樣性和隨機性顯著下降。Xvc28資訊網——每日最新資訊28at.com

Xvc28資訊網——每日最新資訊28at.com

不同的提示分布還可以通過按權重相加來得到生成具有混合概念的圖片的效果,如下圖所示,按不同比例混合中國山水畫和梵高畫作所對應的提示分布,可以生成多樣的混合兩種特征的圖片。Xvc28資訊網——每日最新資訊28at.com

Xvc28資訊網——每日最新資訊28at.com

應用于 3D 生成

由于方法獨立于下游生成模型,學習到的提示分布可以即插即用于其他文字提示驅動的生成任務,譬如文字生成 3D。Xvc28資訊網——每日最新資訊28at.com

Xvc28資訊網——每日最新資訊28at.com

我們實驗使用 MVDream 作為 3D 生成模型,結果顯示在 3D 生成任務上同樣可以體現多樣性生成,以及文本提示編輯等功能。Xvc28資訊網——每日最新資訊28at.com

Xvc28資訊網——每日最新資訊28at.com

總結

這項工作注重于不同于實例層面而時更廣泛的圖片集層面的個性化生成任務,從而使得生成的圖像更具多樣性、創新性,但同時符合參照圖片的一些視覺屬性。Xvc28資訊網——每日最新資訊28at.com

工作還有一些不足,比如生成效果高度依賴于訓練圖片的質量和多樣性,并且在 3D 生成上的結果還有提高空間。Xvc28資訊網——每日最新資訊28at.com

研究人員希望未來能有辦法將方法優化得更魯棒,同時提升在類似 3D 生成任務上的效果。更多細節請參考原文章。Xvc28資訊網——每日最新資訊28at.com

參考資料Xvc28資訊網——每日最新資訊28at.com

https://briannlongzhao.github.io/DreamDistribution/Xvc28資訊網——每日最新資訊28at.com

本文來自微信公眾號:新智元 (ID:AI_era)Xvc28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-3250-0.html“文生圖”再升級!學習個性化參照,無限生成多樣圖片,輕松設計玩具建筑

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 商湯“書生?浦語”2.0 大語言模型開源:200K 上下文,一次可讀 30 萬漢字

下一篇: 自行車配件大廠禧瑪諾 AI 懸架專利曝光:可根據騎行者習慣完成自適應調節

標簽:
  • 熱門焦點
  • 有人狂賺千倍,資金盤游戲日進上億,元宇宙泡沫還能吹多久?

    你還不知道元宇宙?沒關系。看看微軟、Meta、英偉達的雄心壯志,便可領略元宇宙的遼闊。1月18日,微軟宣布將以687億美元收購動視暴雪,這是有史以來互聯網領域最大的
  • 企業熱、用戶冷,元宇宙第一站將是“營銷場”?

    如果說2021年底什么最火熱,那元宇宙當之無愧。“萬物皆可元宇宙”似乎成為新的流行語,在廣告中也常常聽到“社交元宇宙”“購物元宇宙”等等。就在近日,有消息傳
  • NFT的未來:傳統企業與去中心化機構之間的競賽

    傳統企業和去中心化機構一直存在分歧,但最近NFT的爆炸式增長讓他們產生了共同的興趣,雙方都在競相讓用戶更輕松、更方便地使用NFT。毫無疑問,NFT 市場正在增長。
  • 比特幣的價格越高,使用價值越大

    隔夜比特幣還是在精準地橫盤在42k上方。空頭昨日試圖發起一波小的攻勢,但是晚上就被多頭掰了回來。以太坊的鏈上gas price降到了60 gwei以下,彰顯著市場活躍度的
  • 冰墩墩的NFT暴漲千倍?真相則是價格暴跌、成交遇冷

    《區塊鏈日報》記者查證,近日來冰墩墩數字藏品交易數量出現大幅下滑,而所謂的暴漲千倍更是有價無市的自嗨。昨日,北京冬奧會正式閉幕。在這屆冬奧會上,吉祥物“冰
  • 量子計算在未來能否提高區塊鏈技術的效率

    區塊鏈技術的主要成功之處在于對不透明的金融流程進行了去中心化的訪問量子計算機的內在目標是解決傳統計算機不可能解決的問題隨著區塊鏈技術的使用案例逐漸
  • 元宇宙風歸何處?

    元宇宙持續大火,在過去一段時間內,其屢次登上熱點,吸引了一波又一波投資者。近期,在“2022中國·金魚嘴元宇宙生態賦能大會”上,南京建鄴區金魚嘴基金街區宣布計劃
  • 解決NFT流動性問題:一文了解Floor DAO

    流動性是證券市場上的一個術語,流動性是指資產在不影響其市場價格的情況下可以轉換為現成現金的效率,流動性最強的資產是現金本身。現在讓我們試著從流動性的角
  • 想進入web3.0?來看看哪些工作適合你

    隨著對加密貨幣需求的增加,加密領域的工作的數量也在增加。以下是一些非技術性加密貨幣工作簡介。加密貨幣在主流市場獲得的可信度提升。導致區塊鏈領域的求職

猜你喜歡

    SQL Error: select * from ***_ecms_news13 where id in(255,,197,81,145,169) limit 6
Top 主站蜘蛛池模板: 射阳县| 九龙县| 循化| 铜山县| 会泽县| 新乡县| 巴塘县| 通山县| 阜城县| 河北省| 揭东县| 延寿县| 海兴县| 游戏| 梧州市| 杭锦后旗| 重庆市| 东海县| 色达县| 新兴县| 始兴县| 县级市| 福贡县| 和政县| 丹东市| 高平市| 梁山县| 佳木斯市| 宁远县| 福泉市| 卫辉市| 克东县| 商洛市| 茶陵县| 舞阳县| 曲周县| 兴义市| 休宁县| 墨玉县| 安阳县| 乌拉特后旗|