4 月 18 日消息,騰訊混元今日宣布開(kāi)源定制化圖像生成插件InstantCharacter,并實(shí)現(xiàn)了對(duì)開(kāi)源文生圖模型 Flux 的兼容。
騰訊官方介紹稱,通過(guò)這個(gè)插件,在大模型中,只需要一張圖加一句話,就可以讓任何角色以你想要的姿勢(shì)出現(xiàn)在任何地方。
輸入原始圖片
+ prompt :a rabbit is in the kitchen holding a spoon and drinking soup
就能得到下面的圖:
+prompt:a rabbit in the city,cyberpunk
就可以得到:
角色一致性是多輪文生圖場(chǎng)景中的一大難題。InstantCharacter 的優(yōu)勢(shì)在于可以確保角色在不同場(chǎng)景中的一致性和真實(shí)性、畫(huà)質(zhì)和精度高,同時(shí)具有靈活的文本編輯性,用戶可以根據(jù)需要靈活切換任意場(chǎng)景,讓人物生成任意動(dòng)作。
其在角色一致性和圖像生成的精確度上號(hào)稱超過(guò)了此前業(yè)界的相關(guān)技術(shù),能夠處理多種風(fēng)格和復(fù)雜度的圖像。
通過(guò)這個(gè)插件,內(nèi)容創(chuàng)作者可以讓生成的角色保持高度一致,能夠更高效地創(chuàng)作出符合其需求的視覺(jué)作品,可以用于連環(huán)畫(huà)、影片創(chuàng)作等場(chǎng)景。
實(shí)際的測(cè)評(píng)中,開(kāi)源的 InstantCharacter 實(shí)現(xiàn)的效果媲美 GPT 4o 等模型。
從技術(shù)上看,現(xiàn)有基于學(xué)習(xí)的方法主要依賴于 U-Net 架構(gòu),但在泛化能力和圖像質(zhì)量上存在局限性,而基于優(yōu)化的方法則需要針對(duì)特定主體進(jìn)行微調(diào),這不可避免地降低了文本可控性。
為了解決這些挑戰(zhàn),InstantCharacter 利用 DiT 模型構(gòu)建了一個(gè)創(chuàng)新的框架。框架引入了一個(gè)可擴(kuò)展的適配器(adapter),采用多個(gè) transformer encoder,能夠有效處理開(kāi)放域的角色特征,并與現(xiàn)代擴(kuò)散變換器的潛在空間無(wú)縫交互。這種設(shè)計(jì)使得系統(tǒng)能夠靈活適應(yīng)不同的角色特征。
同時(shí),為了有效訓(xùn)練框架,騰訊混元團(tuán)隊(duì)還構(gòu)建了一個(gè)包含千萬(wàn)級(jí)樣本的大規(guī)模角色數(shù)據(jù)集。數(shù)據(jù)集被系統(tǒng)地組織為成對(duì)(多視角角色)和非成對(duì)(文本-圖像組合)子集。這種雙數(shù)據(jù)結(jié)構(gòu)使得身份一致性和文本可編輯性能夠通過(guò)不同的學(xué)習(xí)路徑同時(shí)優(yōu)化。
附項(xiàng)目相關(guān)鏈接:
項(xiàng)目官網(wǎng):https://instantcharacter.github.io/
代碼:https://github.com/Tencent/InstantCharacter
Hugging Face Demo:https://huggingface.co/spaces/InstantX/InstantCharacter
論文:https://arxiv.org/abs/2504.12395
本文鏈接:http://www.www897cc.com/showinfo-45-12417-0.html一張圖 + 一句話實(shí)現(xiàn)任意角色場(chǎng)景姿勢(shì),騰訊混元宣布開(kāi)源定制化圖像生成插件 InstantCharacter
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: OpenAI 新推理模型被曝產(chǎn)生更多“幻覺(jué)”,o3 o4-mini 性能與錯(cuò)誤率一同提升