當前位置：首頁 > 元宇宙 > AI

克服獎勵欺騙：Meta 發布全新后訓練方式 CGPO 編程水平直升 5%，打破 RLHF 瓶頸

來源：責編：時間：2024-11-05 08:18:01 90觀看

導讀 CGPO 框架通過混合評審機制和約束優化器，有效解決了 RLHF 在多任務學習中的獎勵欺騙和多目標優化問題，顯著提升了語言模型在多任務環境中的表現。CGPO 的設計為未來多任務學習提供了新的優化路徑，有望進一步提升

CGPO 框架通過混合評審機制和約束優化器，有效解決了 RLHF 在多任務學習中的獎勵欺騙和多目標優化問題，顯著提升了語言模型在多任務環境中的表現。CGPO 的設計為未來多任務學習提供了新的優化路徑，有望進一步提升大型語言模型的效能和穩定性。

近年來，隨著大規模語言模型（LLMs）的發展，特別是通用大模型的應用場景愈發廣泛，RLHF 逐漸成為調整和優化語言模型輸出的主流方法。

盡管 RLHF 在處理復雜任務時表現出色，但其在多任務學習（MTL）中的表現卻受限于「獎勵欺騙」以及多目標優化中的矛盾問題。

傳統的 RLHF 方法依賴于線性組合的獎勵模型，不僅需要人工調參，且容易導致模型被某一任務的獎勵優化「誤導」。

最近 Meta GenAI 和 FAIR 團隊提出了一個全新的后訓練范式 ——Constrained Generative Policy Optimization （CGPO），通過引入「混合評審機制」（Mixture of Judges, MoJ）與高效的約束優化器，全面提升了 RLHF 在多任務環境中的表現。

論文鏈接：https://arxiv.org/ pdf/2409.20370

實驗結果表明，CGPO 能夠根據任務的不同需求靈活調整優化策略，并通過多任務梯度累積來實現模型的更新，使其在處理不同任務時均能達到最佳表現。

CGPO 框架：打破 RLHF 瓶頸的全新設計

CGPO 的核心在于它突破了傳統 RLHF 對多任務學習的局限性，尤其是在獎勵優化與任務目標沖突之間找到了新的平衡。通過混合評審機制，CGPO 能夠有效識別并消除「獎勵欺騙」行為，即模型在某些任務中過度優化特定的獎勵指標，進而導致其他任務的表現下降。

此外，CGPO 的約束優化器具備自動化調節能力，使其可以在不依賴人工經驗的情況下，找到不同任務間的最優平衡點。

CGPO 采用了基于規則和 LLM 的雙重評審機制。在規則評審中，預先定義的規則能夠有效檢測出模型生成結果是否符合任務需求，如解決數學問題的正確性、代碼生成的準確性等；而 LLM 評審則利用語言模型的內在判斷能力，檢測生成內容的事實性、響應的安全性等，這對于處理復雜對話和開放性問題尤為重要。

CGPO 的核心貢獻

CGPO 的設計從根本上解決了 RLHF 在多任務優化中的兩大難題：

1. 獎勵欺騙的防范

CGPO 通過混合評審機制，在模型生成的過程中持續監控獎勵欺騙行為，保證模型不會過度優化某一任務的獎勵，而犧牲其他任務的表現。不同于傳統 RLHF 方法，CGPO 能夠智能檢測出不合規的生成內容，并通過約束策略進行調整。

2. 極端多目標優化問題的解決

多任務學習通常涉及多個甚至沖突的目標，傳統的 RLHF 框架難以處理這些目標之間的平衡。而 CGPO 通過為每個任務單獨設定評審和優化器，確保各任務能夠獨立優化其目標，避免了不同任務目標之間的相互妥協。最終，CGPO 為多任務學習提供了更優的帕累托前沿解。

技術亮點：三大優化器與多評審機制

CGPO 引入了三種主要的 RLHF 約束優化器 ——Calibrated Regularized Policy Gradient（CRPG）、Constrained Regularized Reward Ranking Finetuning（CRRAFT）、Constrained Online DPO（CODPO），這些優化器不僅有效解決了 RLHF 中的多任務優化難題，還具備強大的擴展性，適用于各種規模的 LLM 訓練場景。

1. CRPG 優化器：通過結合獎勵建模與約束調整，確保模型生成高質量響應，同時防止偏離既定約束。實驗中，CRPG 在數學、編程等需要精確計算和邏輯推理的任務中表現尤為突出。

2. CRRAFT 優化器：通過獎勵排名策略，只保留滿足所有約束條件的生成結果，同時提升獎勵值。該優化器在真相問答、指令跟隨等任務中表現出色。

3. CODPO 優化器：通過直接偏好優化，使得高獎勵值且符合約束的生成結果得以保留，提升模型整體表現。

CGPO 處理多任務場景

在多任務環境下，CGPO 通過“獎勵模型 + 多任務判定器 (MoJs) + 優化器”的組合，為每個任務提供量身定制的對齊指導，從而更好地適應每個任務的獨特特性，增加實現最優對齊結果的可能性。CGPO 框架的核心包括兩個部分：多目標獎勵建模和多專家對齊。

1. 多目標獎勵建模

CGPO 的多目標獎勵建模不同于傳統 RLHF（在多目標場景中的方法。傳統方法通常為所有任務使用統一的線性組合獎勵模型，而 CGPO 則先將提示集 D 按照性質分類為不同、不重疊的子集，即 D = {D1, D2,..., DL}，每個子集 Di 對應一個特定任務，例如包含有害意圖的提示歸為“有害意圖”任務，而一般對話提示歸為「普通對話」任務。

然后，針對每個任務，選擇一個合適的獎勵模型進行訓練，以確保每個任務在優化過程中只關注自身的目標指標，避免其他任務目標的干擾。通過這種分類和獎勵模型定制，CGPO 能更好地排除不相關或相互矛盾的目標，從而提高在每個任務中達成最優結果的可能性。

2. 多專家對齊

多專家對齊是指為每個任務應用定制化的多任務判定器（MoJs）、獎勵模型和優化器設置。在每個任務生成樣本后，使用專門為該任務定制的判定器來篩選不符合標準的生成結果。判定器的選擇因任務而異，以反映各獎勵模型的具體缺點和對 LLM 的預期標準。

例如，在「普通對話」任務中，判定器會專注于評估回復的真實性和拒答情況，從而提升模型的響應性和可靠性。

而在「推理」任務中，則使用基于規則的數學 / 編程判定器，以確保輸出的準確性。在有約束要求且需要更廣泛探索的任務（如指令跟隨、數學和編程）中，CGPO 會采用較寬松的 KL 閾值，并允許每個提示生成更多的樣本；而在不需要廣泛探索的任務（如普通對話）中，則使用更嚴格的 KL 閾值，并減少生成樣本的數量。

CGPO 在每次迭代中處理各個任務，基于任務特定的提示集、獎勵模型、判定器來計算更新的梯度，然后將所有任務的梯度累加，并結合預定義的任務權重更新模型參數。通過這種方式 CGPO 能在多任務、多約束的環境中高效地實現各任務之間的平衡與對齊，優化每個任務的獨特目標。

最終，CGPO 的設計使其能夠在多任務環境中更靈活地適應不同任務的需求，達成更高效的對齊和優化效果。

實驗驗證：CGPO 的顯著性能提升

在多項任務的測試中，CGPO 展現了顯著的性能優勢。具體來說，在通用聊天任務（AlpacaEval-2）、STEM 問題解答任務（Arena-Hard）、指令跟隨（IFEval）、數學與推理（MATH 和 GSM8K）、編程任務（HumanEval）、以及知識問答（ARC Challenge）中，CGPO 均大幅超越現有的 RLHF 算法如 PPO 和 DPO。

實驗數據顯示，CGPO 在 AlpacaEval-2 中相較 PPO 提升了 7.4%，在 Arena-Hard 中提升了 12.5%，而在數學推理任務（MATH 和 GSM8K）中，CGPO 表現穩定，分別提升了 2%，在人類評估（HumanEval）中的編程測試上則提升了 5%。

此外，PPO 在編程任務中表現出獎勵欺騙行為，導致模型在訓練后期出現嚴重退化，而 CGPO 通過約束優化有效避免了這一問題，確保模型表現穩定。

在 CGPO 與 PPO 的性能對比中，CGPO 結合 CRPG 和 CRRAFT 優化器在多個基準測試中持續提升，尤其在 ARC Challenge、HumanEval、MBPP 等任務上表現出色。

相比之下，PPO 在編碼任務中出現顯著下滑，表明獎勵欺騙問題嚴重。雖然 CODPO 優化器表現稍弱，但總體上仍優于 DPO 和 PPO，特別是在安全性任務中，CODPO 取得了最佳結果，展示了其在多任務微調中的卓越效果。

通過消融實驗可以發現 MoJs 不僅能防止在在編碼任務里的獎勵欺騙，還顯著提升了模型在 MATH 和 GSM8K 中的表現。

結論：CGPO 為多任務學習的未來鋪路

CGPO 框架的提出，為強化學習與人類反饋在多任務學習中的應用提供了革命性的新思路。

通過創新的混合評審機制與三大約束優化器，CGPO 不僅有效解決了獎勵欺騙和極端多目標優化的難題，還為大型語言模型的后訓練提供了更穩定和高效的優化路徑。隨著研究的深入，未來我們有望看到更多基于 CGPO 的自動化優化方法，進一步提升多任務學習的表現。

參考資料：

https://arxiv.org/pdf/2409.20370

本文鏈接：http://www.www897cc.com/showinfo-45-9395-0.html克服獎勵欺騙：Meta 發布全新后訓練方式 CGPO 編程水平直升 5%，打破 RLHF 瓶頸

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：蘋果 AI 研究：“獼猴桃”簡單算術考倒 o1 和 Llama 等 20 多個最先進模型

下一篇：谷歌推出新付費功能，借助搜索結果對抗 AI 幻覺問題

標簽：

熱門焦點

新周期，誰在堅守窄門？

來源：錦緞今日的投資者恐怕已經忘記了，在OpenAI創造出ChatGPT這一殺器的前夜，生成式AI也曾經是一道窄門，窄到連馬斯克都差點失去了信心。在當時的輿論眼中，AGI的道路不夠性感，不夠
數字人的AB面：在元宇宙中過氣，在AIGC中重生

來源：光錐智能作者：郝鑫“29800元一年的虛擬主播，號稱24小時不停播，月入十幾萬，實際上卻是關鍵詞都不能回復，播了半個月，直播間還因違規被快手封禁，最終投訴無門、退款無果。&
AI特效、虛擬人、數字盲盒，來看看元宇宙如何融合冬奧會！

今天是冬奧會比賽的第12天，截至目前所累計的成績，中國代表團已經取得了冬奧歷史最佳戰績。全世界的人都在關注著這場盛事，為奧運健兒吶喊助威。谷愛凌、徐夢桃、
銀保監會：打擊以“元宇宙”為名義的違法行為

今日，銀保監會發布《關于防范以“元宇宙”名義進行非法集資的風險提示》，全文如下：近期，一些不法分子蹭熱點，以“元宇宙投資項目”“元宇宙鏈游”等名目吸收資金，涉
中國銀保監管委提示：謹慎投資，勿做接盤俠

中國銀保監管委，發布一則風險提示，內容圍繞防范以“元宇宙”名義進行的非法集資風險。原文如下：近期，一些不法分子蹭熱點，以“元宇宙投資項目”“元宇宙鏈游”等名
頭頂光環無數卻估值極低，以太坊這位&——quot;最強殺手&——quot;有望涅槃重生？

作者：五火球教主提起Dfinity（ICP），你的第一感覺可能與我一樣，這是一個讓人十分糾結的項目。之所以糾結，一方面他的團隊陣容強大，各種來自前英特爾、IBM、coinbase、fa
元宇宙風歸何處？

元宇宙持續大火，在過去一段時間內，其屢次登上熱點，吸引了一波又一波投資者。近期，在“2022中國·金魚嘴元宇宙生態賦能大會”上，南京建鄴區金魚嘴基金街區宣布計劃
Steam 禁止NFT和加密貨幣原因曝光

近日，Valve（V社）總裁Gabe Newell接受PC Gamer采訪時解釋了該平臺禁止NFT和加密貨幣的原因。早在2021年10月18日，PC Gamer就報道Steam推出的新規：使用區塊鏈或允許交
TX加入的NFT數字收藏品，元宇宙的破圈之路?

3月7日，澳大利亞 NFT 初創公司 Immutable 在新加坡淡馬錫牽頭的R資中以估值 25 億美元完成2億美元R資，騰訊參投。想必國人最熟知的應該就是TX，作為國內四大互聯網

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

克服獎勵欺騙：Meta 發布全新后訓練方式 CGPO 編程水平直升 5%，打破 RLHF 瓶頸

新周期，誰在堅守窄門？

數字人的AB面：在元宇宙中過氣，在AIGC中重生

AI特效、虛擬人、數字盲盒，來看看元宇宙如何融合冬奧會！

銀保監會：打擊以“元宇宙”為名義的違法行為

中國銀保監管委提示：謹慎投資，勿做接盤俠

頭頂光環無數卻估值極低，以太坊這位&——quot;最強殺手&——quot;有望涅槃重生？

元宇宙風歸何處？

Steam 禁止NFT和加密貨幣原因曝光

TX加入的NFT數字收藏品，元宇宙的破圈之路?

最新推薦

AI界地震！美國對OpenAI展開調查！監管風暴來襲！

錯過了BRC20還有eths,eth銘文協議

好萊塢：一股新的電影制作加密浪潮將顛覆這個行業

NFT也有黃牛？這家公司專門對付外掛作弊機器人

費城藝術家使用區塊鏈，在數字藝術中狠狠撈一筆

頭像類NFTs的統治能持續多久？

猜你喜歡

熱門推薦

相關資訊

克服獎勵欺騙：Meta 發布全新后訓練方式 CGPO 編程水平直升 5%，打破 RLHF 瓶頸

最新推薦

猜你喜歡

熱門推薦

相關資訊

克服獎勵欺騙：Meta 發布全新后訓練方式 CGPO 編程水平直升 5%，打破 RLHF 瓶頸