當(dāng)前位置：首頁 > 元宇宙 > AI

字節(jié)跳動(dòng)豆包文生圖技術(shù)報(bào)告發(fā)布：數(shù)據(jù)處理、預(yù)訓(xùn)練、RLHF 全流程公開

來源：責(zé)編：時(shí)間：2025-03-14 12:40:41 87觀看

導(dǎo)讀 3 月 12 日消息，今天，豆包大模型團(tuán)隊(duì)正式發(fā)布文生圖技術(shù)報(bào)告，首次公開 Seedream 2.0 圖像生成模型技術(shù)細(xì)節(jié)，覆蓋數(shù)據(jù)構(gòu)建、預(yù)訓(xùn)練框架、后訓(xùn)練 RLHF 全流程，針對(duì)Seedream 2.0 原生中英雙語理解、文字渲染、高美感

3 月 12 日消息，今天，豆包大模型團(tuán)隊(duì)正式發(fā)布文生圖技術(shù)報(bào)告，首次公開 Seedream 2.0 圖像生成模型技術(shù)細(xì)節(jié)，覆蓋數(shù)據(jù)構(gòu)建、預(yù)訓(xùn)練框架、后訓(xùn)練 RLHF 全流程，針對(duì)Seedream 2.0 原生中英雙語理解、文字渲染、高美感、分辨率與畫幅變換等特性的實(shí)現(xiàn)，進(jìn)行了具體介紹。

據(jù)介紹，豆包大模型團(tuán)隊(duì)文生圖模型 Seedream 2.0于 2024 年 12 月初在豆包 App 和即夢(mèng)上線，已服務(wù)上億 C 端用戶。

相比 Ideogram 2.0、Midjourney V6.1、Flux 1.1 Pro 等主流模型，該模型更好解決了文本渲染能力欠佳、對(duì)中國(guó)文化理解不足等諸多實(shí)際問題，支持原生中英雙語，美感、指令遵循等能力有整體提升。

團(tuán)隊(duì)為了較全面客觀地評(píng)估模型，圍繞圖文匹配度、結(jié)構(gòu)準(zhǔn)確率、美感等基礎(chǔ)維度，嚴(yán)格構(gòu)建了 Bench-240 評(píng)測(cè)基準(zhǔn)。通過測(cè)試，團(tuán)隊(duì)發(fā)現(xiàn) Seedream 2.0面向英文提示詞，其生成內(nèi)容的結(jié)構(gòu)合理性、文本理解準(zhǔn)確性高于主流模型。

中文綜合能力同樣突出，其生成與渲染文字可用率達(dá) 78%，完美響應(yīng)率為 63%，高于業(yè)界目前其他模型。

以下將從數(shù)據(jù)預(yù)處理、預(yù)訓(xùn)練、后訓(xùn)練維度介紹模型技術(shù)細(xì)節(jié)：

1. 深度融合知識(shí)的數(shù)據(jù)預(yù)處理框架

生成式 AI 技術(shù)，正從規(guī)模至上的“暴力美學(xué)”，向滿足特定要求的“精準(zhǔn)智能”轉(zhuǎn)變，與之同步，數(shù)據(jù)預(yù)處理也演變?yōu)閺?fù)雜的系統(tǒng)工程。面對(duì)百億量級(jí)的中英多模態(tài)數(shù)據(jù)，Seedream 2.0 團(tuán)隊(duì)構(gòu)建了以“知識(shí)融合”為核心的預(yù)處理框架，從以下三個(gè)方面實(shí)現(xiàn)技術(shù)突破。

四維數(shù)據(jù)架構(gòu)，實(shí)現(xiàn)質(zhì)量與知識(shí)的動(dòng)態(tài)平衡

傳統(tǒng)圖像生成模型訓(xùn)練數(shù)據(jù)篩選常面臨“質(zhì)量-規(guī)模”的兩難抉擇，數(shù)據(jù)量級(jí)是模型能力的基礎(chǔ)，但大規(guī)模數(shù)據(jù)構(gòu)建，往往伴隨質(zhì)量下滑，進(jìn)而影響模型表現(xiàn)。為此，團(tuán)隊(duì)創(chuàng)新設(shè)計(jì)了四維拓?fù)渚W(wǎng)絡(luò)，突破單一模態(tài)限制。

該架構(gòu)包含四個(gè)數(shù)據(jù)層：

1）優(yōu)質(zhì)數(shù)據(jù)層：精選高分辨率、知識(shí)密度強(qiáng)的數(shù)據(jù)（如科學(xué)圖解、藝術(shù)創(chuàng)作），奠定質(zhì)量基礎(chǔ)；

2）分布維持層：采用雙層級(jí)降采樣策略，從數(shù)據(jù)源維度對(duì)頭部平臺(tái)等比降維，從語義維度通過 10 萬級(jí)細(xì)粒度聚類維持多樣性；

3）知識(shí)注入層：構(gòu)建 3 萬 + 名詞和 2000+ 動(dòng)詞分類體系，結(jié)合百億級(jí)跨模態(tài)檢索，為數(shù)據(jù)注入文化特征；

4）定向增強(qiáng)層：建立“缺陷發(fā)現(xiàn)-數(shù)據(jù)補(bǔ)充-效果驗(yàn)證”閉環(huán)，優(yōu)化動(dòng)作序列、反現(xiàn)實(shí)生成等場(chǎng)景。

這一架構(gòu)有效平衡了數(shù)據(jù)質(zhì)量與知識(shí)多樣性，為模型訓(xùn)練提供堅(jiān)實(shí)的數(shù)據(jù)支撐。

智能標(biāo)注引擎：三級(jí)認(rèn)知進(jìn)化

傳統(tǒng)標(biāo)注的 Caption 系統(tǒng)受單模態(tài)理解局限，對(duì)圖像內(nèi)容描述不夠全面精準(zhǔn)。團(tuán)隊(duì)在其基礎(chǔ)上，實(shí)現(xiàn)了智能標(biāo)注引擎的三級(jí)認(rèn)知進(jìn)化，提升模型理解、識(shí)別能力。首先，構(gòu)建分層描述體系，通過短、長(zhǎng)和特殊場(chǎng)景 Caption 結(jié)合，實(shí)現(xiàn)多維度、多層級(jí)精準(zhǔn)圖片描述，既能捕捉圖像核心內(nèi)容，又能提供豐富細(xì)節(jié)與藝術(shù)解釋。其次，建立文化專有名詞映射庫，實(shí)現(xiàn)跨語言對(duì)齊，將中英文生成質(zhì)量差異壓縮至 2% 以內(nèi)，提升模型在多語言環(huán)境下表現(xiàn)。最后，引入動(dòng)態(tài)質(zhì)檢機(jī)制，利用 LLM 進(jìn)行預(yù)篩選，通過 Badcase 驅(qū)動(dòng) prompt 模板迭代，優(yōu)化描述質(zhì)量，確保數(shù)據(jù)質(zhì)量與可靠性。

工程化重構(gòu)：百億數(shù)據(jù)的流水線并行處理

工程化方面，傳統(tǒng) ETL 流程存在算力錯(cuò)配與迭代遲滯痛點(diǎn)。這不僅導(dǎo)致非核心任務(wù)占用大量高算力資源，擠占核心任務(wù)資源，也造成數(shù)據(jù)處理流程難以適應(yīng)業(yè)務(wù)與數(shù)據(jù)變化，限制整體效能。團(tuán)隊(duì)從兩方面重構(gòu)工程系統(tǒng)。一方面通過異構(gòu)調(diào)度，將水印檢測(cè)等非核心任務(wù)遷移至低算力集群，釋放高算力資源用于關(guān)鍵任務(wù)。另一方面，采用“分片-校驗(yàn)-裝載”三級(jí)流水線并行處理方法，打包速度提升 8 倍。這些改進(jìn)大幅提高數(shù)據(jù)處理效率與質(zhì)量，為大規(guī)模數(shù)據(jù)管理利用奠定基礎(chǔ)。

2.預(yù)訓(xùn)練聚焦雙語理解與文字渲染

在預(yù)訓(xùn)練階段，團(tuán)隊(duì)基于大量用戶調(diào)研與技術(shù)預(yù)判認(rèn)為，多語言語義理解、雙語文字渲染和多分辨率場(chǎng)景適配等模塊的突破，對(duì)于圖像生成技術(shù)發(fā)展極為關(guān)鍵，可大幅提升模型適用性與用戶體驗(yàn)，滿足不同語言文化背景的用戶需求，并拓展應(yīng)用場(chǎng)景。因此，Seedream 2.0 采用了全新的預(yù)訓(xùn)練架構(gòu)設(shè)計(jì)，其整體框圖如下。

具體來看，Seedream 2.0 從三個(gè)方面實(shí)現(xiàn)了關(guān)鍵技術(shù)升級(jí)。

原生雙語對(duì)齊方案，打破語言視覺次元壁

面向雙語文生圖場(chǎng)景，傳統(tǒng)的 CLIP / T5 編碼器對(duì)中文語義和文化細(xì)節(jié)的捕捉能力有限，大語言模型雖具備多語言理解能力，但文本嵌入與圖像特征的空間分布差異卻導(dǎo)致擴(kuò)散模型訓(xùn)練難以收斂。為此，團(tuán)隊(duì)提出基于 LLM 的雙語對(duì)齊方案。通過大規(guī)模文本-圖像對(duì)數(shù)據(jù)，微調(diào) Decoder-Only 架構(gòu)的 LLM，使文本 Embedding 與視覺特征形成空間映射對(duì)齊。同時(shí)，針對(duì)中文書法、方言俚語、專業(yè)術(shù)語等場(chǎng)景構(gòu)建專用數(shù)據(jù)集，加強(qiáng)模型對(duì)文化符號(hào)的深度理解與感知。這種“預(yù)訓(xùn)練對(duì)齊 + 領(lǐng)域增強(qiáng)”的雙軌策略，使模型能夠直接從大量中英文數(shù)據(jù)中習(xí)得“地道”的本土知識(shí)，進(jìn)而，準(zhǔn)確生成具有文化細(xì)微差別的中文或英文美學(xué)表達(dá)圖像，打破不同語言與視覺的次元壁。

讓模型既看懂文本，又關(guān)注字體字形

在過去，圖像生成模型的文本渲染常面臨兩難困境：依賴 ByT5 等字形模型易導(dǎo)致長(zhǎng)文本布局混亂，而引入 OCR 圖像特征又需額外布局規(guī)劃模塊。為此，團(tuán)隊(duì)構(gòu)建了雙模態(tài)編碼融合系統(tǒng) —— LLM 負(fù)責(zé)解析“文本要表達(dá)什么”，ByT5 專注刻畫“文字應(yīng)該長(zhǎng)什么樣”。具體來說，通過 MLP 投影層，將 ByT5 的字形特征對(duì)齊到 LLM 語義空間，二者拼接后輸入擴(kuò)散模型。此種方法下，字體、顏色、大小、位置等渲染屬性不再依賴預(yù)設(shè)模板，而是通過 LLM 直接描述文本特征，進(jìn)行端到端訓(xùn)練。如此一來，模型既能從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)文本渲染特征，也可以基于編碼后的渲染特征，高效學(xué)習(xí)渲染文本的字形特征。

三重升級(jí) DiT 架構(gòu)，讓圖像生成縮放自如

多分辨率生成是圖像生成場(chǎng)景的常用需求，團(tuán)隊(duì)在 SD3 的 MMDiT 架構(gòu)基礎(chǔ)上，進(jìn)行了兩重升級(jí)：其一，在訓(xùn)練穩(wěn)定性方面。團(tuán)隊(duì)引入 QK-Norm 抑制注意力矩陣的數(shù)值波動(dòng)，結(jié)合全分片數(shù)據(jù)并行策略（FSDP），使模型訓(xùn)練收斂速度提升 300%。其二，團(tuán)隊(duì)設(shè)計(jì)了 Scaling ROPE 技術(shù)方案。傳統(tǒng)二維旋轉(zhuǎn)位置編碼（RoPE）在分辨率變化時(shí)，可能會(huì)導(dǎo)致位置標(biāo)識(shí)錯(cuò)位。Seedream 2.0 通過動(dòng)態(tài)縮放因子調(diào)整編碼，使圖像中心區(qū)域在不同寬高比下，保持空間一致性。這使得模型在推理過程中，能夠生成從未訓(xùn)練過的圖像尺寸和各種分辨率。

3.后訓(xùn)練 RLHF 突破能力瓶頸

Seedream 2.0 的后訓(xùn)練過程包含四個(gè)階段：其中，CT 和 SFT 增強(qiáng)模型美學(xué)吸引力；人類反饋對(duì)齊（RLHF）利用自研獎(jiǎng)勵(lì)模型與反饋算法，提升模型整體性能；Prompt Engineering 借助微調(diào)大語言模型優(yōu)化美學(xué)與多樣性表現(xiàn)；超分模型提高圖像分辨率并修復(fù)細(xì)微結(jié)構(gòu)錯(cuò)誤。

其中最值得一提的是，團(tuán)隊(duì)開發(fā)了基于人類反饋對(duì)齊的（RLHF）優(yōu)化系統(tǒng)，提升了 Seedream 2.0 整體性能。其核心工作包含以下三個(gè)方面：

多維度偏好數(shù)據(jù)體系，提升模型偏好上限

團(tuán)隊(duì)收集并整理了一個(gè)多功能的 Prompt 集合，專門用于獎(jiǎng)勵(lì)模型（RM）訓(xùn)練和反饋學(xué)習(xí)階段，并通過構(gòu)建跨版本和跨模型標(biāo)注管道，增強(qiáng)了 RM 的領(lǐng)域適應(yīng)性，并擴(kuò)展了模型偏好的上限。在標(biāo)注階段，團(tuán)隊(duì)構(gòu)建了多維融合注釋。這一做法成功擴(kuò)展了單一獎(jiǎng)勵(lì)模型的多維度偏好表征邊界，促進(jìn)模型在多個(gè)維度上實(shí)現(xiàn)帕累托最優(yōu)。

三個(gè)不同獎(jiǎng)勵(lì)模型，給予專項(xiàng)提升

Seedream 2.0 直接利用 CLIP 嵌入空間距離，作為基礎(chǔ)獎(jiǎng)勵(lì)值。這省去了回歸頭等冗余參數(shù)結(jié)構(gòu)以及不穩(wěn)定訓(xùn)練情況。同時(shí)，團(tuán)隊(duì)精心制作并訓(xùn)練了三個(gè)不同的獎(jiǎng)勵(lì)模型：圖像文本對(duì)齊 RM、美學(xué) RM 和文本渲染 RM。其中，文本渲染 RM 引入了觸發(fā)式激活機(jī)制，在檢測(cè)到“文本生成”類標(biāo)簽時(shí)，模型將強(qiáng)化字符細(xì)節(jié)優(yōu)化能力，提升漢字生成準(zhǔn)確率。

反復(fù)學(xué)習(xí)，驅(qū)動(dòng)模型進(jìn)化

團(tuán)隊(duì)通過直接最大化多個(gè) RM 的獎(jiǎng)勵(lì)，以改進(jìn)擴(kuò)散模型。通過調(diào)整學(xué)習(xí)率、選擇合適的去噪時(shí)間步長(zhǎng)和實(shí)施權(quán)重指數(shù)滑動(dòng)平均，實(shí)現(xiàn)了穩(wěn)定的反饋學(xué)習(xí)訓(xùn)練。在反饋學(xué)習(xí)階段，團(tuán)隊(duì)同時(shí)微調(diào) DiT 和文本編碼器。此種聯(lián)合訓(xùn)練顯著增強(qiáng)了模型在圖像文本對(duì)齊和美學(xué)改進(jìn)方面的能力。經(jīng)過 RLHF 階段對(duì)擴(kuò)散模型和獎(jiǎng)勵(lì)模型的多輪迭代，團(tuán)隊(duì)進(jìn)一步提高了模型性能。獎(jiǎng)勵(lì)曲線顯示，在整個(gè)對(duì)齊過程中，不同獎(jiǎng)勵(lì)模型的表現(xiàn)分?jǐn)?shù)值都呈現(xiàn)穩(wěn)定且一致的上升趨勢(shì)。

附字節(jié)跳動(dòng)技術(shù)展示頁：https://team.doubao.com/tech/seedream

技術(shù)報(bào)告：https://arxiv.org/pdf/2503.07703

本文鏈接：http://www.www897cc.com/showinfo-45-11456-0.html字節(jié)跳動(dòng)豆包文生圖技術(shù)報(bào)告發(fā)布：數(shù)據(jù)處理、預(yù)訓(xùn)練、RLHF 全流程公開

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇：全球首個(gè)“一腦多機(jī)”通用具身智能平臺(tái)“慧思開物”在京發(fā)布

下一篇：比亞迪3月17日發(fā)超級(jí)e平臺(tái)，兆瓦閃充能否終結(jié)電車?yán)m(xù)航焦慮？

標(biāo)簽：

熱門焦點(diǎn)

雷克薩斯高管，“受賄”5000萬？

來源：毒舌科技作者：潘磊雷克薩斯的高管，好像出事了。五六家日本小媒體，突然曝出了一個(gè)與中國(guó)市場(chǎng)有關(guān)的大新聞——雷克薩斯中國(guó)區(qū)一個(gè)高管受賄10億日元（約合人民幣5000
錯(cuò)過了BRC20還有eths,eth銘文協(xié)議

來源：三頭鳥NFT大家好，我是鳥哥，了解鳥哥的人都知道鳥哥擅擼空投，說實(shí)話擼毛雖然回報(bào)大但周期還是有點(diǎn)長(zhǎng)的，所以除了擼毛我們自己也在研究早期項(xiàng)目，打新，比如BRC20協(xié)議ordi當(dāng)時(shí)就有
花房集團(tuán)上市，走向元宇宙新征程

文 | 港股研究社作者 | 熊生12月12日，花房集團(tuán)在港交所成功上市，首日便受到追捧，當(dāng)日最高漲幅達(dá)28.75%。繼360、360數(shù)科、魯大師后，這是“紅衣教主”周
完美世界被元宇宙“拒之門外”

春節(jié)期間，游戲是消磨時(shí)間最好的方式，完美世界的《幻塔》作為選擇的首要目標(biāo)，倒不是因?yàn)樗奈τ卸啻螅兇馐菑V大網(wǎng)友的吐槽。繼《原神》之后，進(jìn)擊元宇宙的游戲
傳騰訊已推出全新XR業(yè)務(wù)；摩托羅拉正打造5GXR頸戴式計(jì)算組件

今日熱點(diǎn)：傳騰訊已推出全新XR業(yè)務(wù)；摩托羅拉與Verizon合作打造5G XR頸戴式計(jì)算組件；小米AR購物導(dǎo)航專利獲授權(quán)；VR一體機(jī)Simula One放棄眾籌并開放直接預(yù)訂；VR游戲《
Niantic與索尼在音頻AR領(lǐng)域達(dá)成合作；?蘋果為Apple Park申請(qǐng)形象化商標(biāo)

今日熱點(diǎn)：迪士尼任命新高管負(fù)責(zé)元宇宙業(yè)務(wù)；iFixit成為Valve Index VR頭顯和Steam Deck首家零件銷售商；Niantic與索尼達(dá)成合作，將為AR游戲《Ingress》帶來音頻體驗(yàn)；V
2022年中國(guó)元宇宙系列報(bào)告：底層架構(gòu)研究：虛擬引擎，擎動(dòng)未來

“虛擬引擎是元宇宙平臺(tái)搭建的基本工具。在這樣的條件下，虛擬引擎擁有了廣闊的市場(chǎng)空間。也需要虛擬引擎擁有擁有強(qiáng)大的處理能力，能夠高效快速的實(shí)現(xiàn)大量交互場(chǎng)
虛擬數(shù)字人：元宇宙的主角破圈而來

虛擬數(shù)字人市場(chǎng)逐步進(jìn)入成熟期，商業(yè)化進(jìn)程加速。1982年世界第一位虛擬歌姬林明美誕生，虛擬數(shù)字人行業(yè)經(jīng)歷了萌芽、探索、初級(jí)和成長(zhǎng)四個(gè)階段。隨技術(shù)逐年突破，制
融資千萬美元的元宇宙平臺(tái)UGC到底是什么？

據(jù)獲悉，全球化元宇宙社交平臺(tái)BUD Technologies, Inc.（以下簡(jiǎn)稱“BUD”）宣布完成1500萬美元A+輪融資，本輪融資由啟明創(chuàng)投領(lǐng)投，老股東源碼資本、GGV紀(jì)源資本、云九資

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

字節(jié)跳動(dòng)豆包文生圖技術(shù)報(bào)告發(fā)布：數(shù)據(jù)處理、預(yù)訓(xùn)練、RLHF 全流程公開

雷克薩斯高管，“受賄”5000萬？

錯(cuò)過了BRC20還有eths,eth銘文協(xié)議

花房集團(tuán)上市，走向元宇宙新征程

完美世界被元宇宙“拒之門外”

傳騰訊已推出全新XR業(yè)務(wù)；摩托羅拉正打造5GXR頸戴式計(jì)算組件

Niantic與索尼在音頻AR領(lǐng)域達(dá)成合作；?蘋果為Apple Park申請(qǐng)形象化商標(biāo)

2022年中國(guó)元宇宙系列報(bào)告：底層架構(gòu)研究：虛擬引擎，擎動(dòng)未來

虛擬數(shù)字人：元宇宙的主角破圈而來

融資千萬美元的元宇宙平臺(tái)UGC到底是什么？

最新推薦

《從營(yíng)銷AIGC化到AIGC營(yíng)銷化》報(bào)告發(fā)布

10億基金，李彥宏呼喚下一個(gè)AI獨(dú)角獸

現(xiàn)在的元宇宙：一款低配版的科幻游戲

虛擬數(shù)字人：元宇宙的主角破圈而來

GameFi 深度解析，元宇宙內(nèi)容雛形顯現(xiàn)

NFT高玩必備：NFT分析工具大盤點(diǎn)

猜你喜歡

熱門推薦

相關(guān)資訊