當前位置：首頁 > 元宇宙 > AI

20% 的楊冪 + 80% 的泰勒長什么樣？小紅書風格化 AI 來了，可兼容 SD 和 ControlNet

來源：責編：時間：2024-01-22 17:19:33 324觀看

導讀不得不說，現在拍寫真真是“簡單到放肆”了。真人不用出鏡，不用費心凹姿勢、搞發型，只需一張本人圖像，等待幾秒鐘，就能獲得 7 種完全不同風格：仔細看，造型 / pose 全都給你整得明明白白，并且原圖直出修也不用修了。這

不得不說，現在拍寫真真是“簡單到放肆”了。

真人不用出鏡，不用費心凹姿勢、搞發型，只需一張本人圖像，等待幾秒鐘，就能獲得 7 種完全不同風格：

仔細看，造型 / pose 全都給你整得明明白白，并且原圖直出修也不用修了。

這擱以前，不得在寫真館耗上至少整整一天，把咱和攝影師、化妝師都累個半死不活。

以上，便是一個叫做 InstantIDAI 的厲害之處。

除了現實寫真，它還能整點“非人類的”：

比如貓頭貓身，但仔細看又有你的臉部特征。

各種虛擬風格就更不用說了：

像 style 2，真人直接變石像。

當然，輸入石像也能直接變：

對了，還能進行倆人臉融合的高能操作，看看 20% 的楊冪 + 80% 的泰勒長什么樣：

一張圖無限高質量變身，可是叫它玩明白了。所以，這是怎么做到的？

基于擴散模型，可與 SD 無縫集成

作者介紹，目前的圖像風格化技術已經可以做到只需一次前向推理即可完成任務（即基于 ID embedding）。

但這種技術也有問題：要么需要對眾多模型參數進行廣泛微調，要么與社區開發的預訓練模型缺乏兼容性，要么無法保持高保真度的面部特征。

為了解決這些挑戰，他們開發了 InstantID。

InstantID 基于擴散模型打造，其即插即用（plug-and-play）模塊僅靠單張面部圖像即可熟練地處理各種風格化變身，同時確實高保真度。

最值得一提的是，它可與時下流行的文本到圖像預訓練擴散模型無縫集成（例如 SD1.5、SDXL），作為插件使用。

具體來看，InstantID 由三個關鍵組成部分：

（1）捕獲語義人臉信息的 ID embedding；

（2）具有解耦交叉注意力的輕量級適配模塊，方便圖像作為視覺提示；

（3）IdentityNet 網絡，它通過額外的空間控制對參考圖像的詳細特征進行編碼，最終完成圖像生成。

而相比業內此前的工作，InstantID 有幾點不同：

一是不用訓練 UNet，因此可以保留原始文本到圖像模型的生成能力，并兼容社區中現有的預訓練模型和 ControlNet。

二是不需要 test-time 調整，因此對于特定風格，不需要收集多張圖像進行微調，只需要對單個圖像進行一次推斷即可。

三是除了實現更好的面部保真度，也保留了文本可編輯性。如下圖所示，只需幾個字，即可讓形象變性別、換套裝、改發型以及發色。

再次強調，以上所有效果只需 1 張參考圖像在幾秒內即可完成。如下圖實驗證明，多來幾張參考圖的作用基本不大，1 張就能做得很好。

下面是一些具體對比。

比較對象是現有的免調優 SOTA 方法：IP-Adapter (IPA)、IP-Adapter-FaceID 以及前兩天騰訊剛剛出品的 PhotoMaker。

可以看到，大家都挺“卷”的，效果都不賴 —— 但仔細對比的話，PhotoMaker 和 IP-Adapter-FaceID 保真度都不錯，但文本控制能力明顯差一點。

相比之下，InstantID 的面孔和樣式能更好地融合，在實現了更好保真度的同時，還保留了良好的文本可編輯性。

除此之外，還有與 InsightFace Swapper 模型的比較，你覺得哪個效果更好呢？

作者介紹

本文一共 5 位作者，來自神秘的 InstantX 團隊（網上沒有搜到太多信息）。不過一作是來自小紅書的 Qixun Wang。

通訊作者王浩帆也是小紅書的工程師，從事可控和條件內容生成（AIGC）方面的研究，是 CMU'20 屆校友。

參考鏈接：

https://instantid.github.io/

本文來自微信公眾號：量子位（ID：QbitAI），作者：豐色

本文鏈接：http://www.www897cc.com/showinfo-45-3254-0.html20% 的楊冪 + 80% 的泰勒長什么樣？小紅書風格化 AI 來了，可兼容 SD 和 ControlNet

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：國際貨幣組織：人工智能可能加劇貧富差距，員工是否熟練掌握 AI 將影響薪酬

下一篇：微軟推出獨立 AI 工具“閱讀教練”，輔助提高學習者閱讀能力

標簽：

熱門焦點

不同于傳統數字經濟，元宇宙賦予商業生態更多數字資產價值！

作者：中科基大數據元宇宙是一個去中心化的開放平臺，而為了維護這樣的平臺，需要建立一個公平的游戲規則，確保每個元宇宙的參與者通過這個規則都可以掙到錢，他們的利益都可以得到保
冰墩墩還能火多久？

作者：田巧云題圖源自北京2022年冬奧會官方微博如果要問2022年的開年明星是誰，冰墩墩當仁不讓。幾乎所有人都被那個抖雪的動作實力圈粉。在社交媒體的助推，以及日
2022年中國元宇宙系列報告：底層架構研究：虛擬引擎，擎動未來

“虛擬引擎是元宇宙平臺搭建的基本工具。在這樣的條件下，虛擬引擎擁有了廣闊的市場空間。也需要虛擬引擎擁有擁有強大的處理能力，能夠高效快速的實現大量交互場
Meta展示AI系統Builder Bot；《Pistol Whip》增加派對模式

今日熱點：Meta展示AI系統Builder Bot；招聘信息顯示Meta正在探索具有蜂窩連接功能的VR/AR頭顯；英國VR工作室Coatsink Games正在為PSVR 2開發新游戲；VR節奏射擊游戲
2022年元宇宙系列報告：UGC當道，XR帶來新交互體驗

UGC作為元宇宙的主要內容創作模式，已經越來越多的呈現于游戲、娛樂、社交、傳媒等方面，UGC模式勾勒了元宇宙的邊界，現今元宇宙UGC模式的主要呈現方式以元宇宙概念
以太坊倫敦升級后，隨之生效的以太坊EIP-1559是什么？

作者：三黎過去的一年里，除了 BTC 一如既往穩坐王位，DEFI 則是貫穿一整年的狂歡熱點。 DeFi 在讓 ETH 實現價值增長的同時，也使得其網絡日漸擁堵、交易費用增高，成為
融資千萬美元的元宇宙平臺UGC到底是什么？

據獲悉，全球化元宇宙社交平臺BUD Technologies, Inc.（以下簡稱“BUD”）宣布完成1500萬美元A+輪融資，本輪融資由啟明創投領投，老股東源碼資本、GGV紀源資本、云九資
利用元宇宙平臺10天收入160萬，風口還是虎口？

美國Meta平臺有限公司，也就是原來的臉書公司，9日宣布，公司旗下的虛擬現實應用《地平線世界》正式向美國和加拿大的18歲以上人群開放。這也是目前Meta推出的最具象
這場虛擬發布會，當面“造假”！

英偉達去年4月份那場發布會，你曾看出什么不對勁的地方嗎？你品，你細品——在計算機圖形學頂會SIGGRAPH 2021上，英偉達通過一部紀錄片自曝：那場發布會內藏玄機~你看到

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

20% 的楊冪 + 80% 的泰勒長什么樣？小紅書風格化 AI 來了，可兼容 SD 和 ControlNet

不同于傳統數字經濟，元宇宙賦予商業生態更多數字資產價值！

冰墩墩還能火多久？

2022年中國元宇宙系列報告：底層架構研究：虛擬引擎，擎動未來

Meta展示AI系統Builder Bot；《Pistol Whip》增加派對模式

2022年元宇宙系列報告：UGC當道，XR帶來新交互體驗

以太坊倫敦升級后，隨之生效的以太坊EIP-1559是什么？

融資千萬美元的元宇宙平臺UGC到底是什么？

利用元宇宙平臺10天收入160萬，風口還是虎口？

這場虛擬發布會，當面“造假”！

最新推薦

聚焦虛擬數字人技術，這三大商機要抓住！

冰墩墩的NFT暴漲千倍？真相則是價格暴跌、成交遇冷

摩根大通：元宇宙市場預計每年收入超1萬億美元

「國產良心」NFT嘲諷了誰？

元宇宙存在的意義和價值

2022年元宇宙系列報告：UGC當道，XR帶來新交互體驗

猜你喜歡

熱門推薦

相關資訊

20% 的楊冪 + 80% 的泰勒長什么樣？小紅書風格化 AI 來了，可兼容 SD 和 ControlNet

最新推薦

猜你喜歡

熱門推薦

相關資訊

20% 的楊冪 + 80% 的泰勒長什么樣？小紅書風格化 AI 來了，可兼容 SD 和 ControlNet