9 月 17 日消息,騰訊混元今晚通過官方公眾號發文介紹,其生圖團隊在 9 月 10 日發布了新研究 SRPO,主要提供文生圖模型的強化算法,解決開源文生圖模型 Flux 的皮膚質感“過油”問題,讓人像真實感“提升 3 倍”。
根據介紹,該項目在發布后登上了 Hugging Face 熱度榜榜首,社區量化版本下載量達 25K,Github Star 超過了 700。
當前,Flux 是開源文生圖社區中最廣泛使用的基礎模型。針對 Flux.dev.1 模型生成的人物質感“過油”的問題,SRPO(全稱為 Semantic Relative Preference Optimization,語義相對偏好優化)的解決手段包括在線調整獎勵偏好、優化早期生成軌跡等。


官方揭秘了背后的技術:騰訊混元團隊聯合香港中文大學(深圳)和清華大學近日提出創新性解決方案:語義相對偏好優化(Semantic Relative Preference Optimization)。該方法創新性地提出了另一條解決思路 —— 通過語義偏好實現獎勵模型的在線調整。具體來說,SRPO 通過為獎勵模型添加特定的控制提示詞(如“真實感”)來定向調整其優化目標。實驗結果顯示,這些控制詞可以顯著增強獎勵模型在真實度等特定維度的優化能力。

進一步,研究人員發現,單純的語義引導仍存在獎勵破解(rewardhacking)的風險。針對這一問題,團隊提出創新的“語義相對偏好優化”策略:同時使用正向詞和負向詞作為引導信號,通過負向梯度有效中和獎勵模型的一般性偏差,同時保留語義差異中的特定偏好。
研究團隊發現,傳統方法(如 ReFL,DRaFT)通常僅優化生成軌跡的后半段,這種策略極易導致獎勵模型在高頻信息上的過擬合問題。具體表現為:HPSv2 獎勵模型會偏好偏紅色調的圖像,PickScore 傾向于紫色圖像,而 ImageReward 則容易對過曝區域給出較高評分。
基于這些發現,研究團隊提出 Direct-Align 策略,對輸入圖像進行可控的噪聲注入,隨后通過單步推理,借助預先注入的噪聲作為“參考錨點”進行圖像重建。這種方法顯著降低了重建誤差,實現更精準的獎勵信號傳導。從而支持對生成軌跡的前半段進行優化,解決過擬合問題。

根據介紹,SRPO 具有極高的訓練效率,只需 10 分鐘訓練即可全面超越 DanceGRPO 的效果。


SRPO 定量指標達 SOTA 水平,人類評估的真實度和美學優秀率提升超過 3 倍,訓練時間相比 DanceGRPO 降低 75 倍。


附上有關鏈接如下:
論文題目: Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference
論文鏈接:https://arxiv.org/abs/2509.06942
項目主頁:https://tencent.github.io/srpo-project-page/
GitHub:https://github.com/Tencent-Hunyuan/SRPO
本文鏈接:http://www.www897cc.com/showinfo-45-27702-0.html給大模型生圖“去油”,騰訊混元新研究 SRPO 公布
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com