8 月 26 日消息,科技媒體 9to5Mac 昨日(8 月 25 日)發布博文,報道稱蘋果研究人員在最新論文中提出“基于清單反饋的強化學習”(RLCF)方法,用任務清單替代傳統人類點贊 / 點踩評分,顯著提升大語言模型(LLMs)執行復雜指令能力。
注:RLCF 的全稱為 Reinforcement Learning from Checklist Feedback,不同于傳統的“人類反饋強化學習”(RLHF)依賴人工點贊 / 點踩,RLCF 為每條用戶指令生成具體的檢查清單,并按 0-100 分逐項評分,用以指導模型優化。

研究團隊在強指令跟隨模型 Qwen2.5-7B-Instruct 上測試該方法,涵蓋五個常用評測基準。結果顯示,RLCF 是唯一在全部測試中均取得提升的方案:
FollowBench 硬性滿意率提升 4 個百分點
InFoBench 提高 6 點
Arena-Hard 勝率增加 3 點
某些任務最高提升達 8.2%。
這表明清單反饋在復雜、多步驟需求的執行中效果顯著。


清單的生成過程也頗具特色。團隊利用更大規模的 Qwen2.5-72B-Instruct 模型,結合既有研究方法,為 13 萬條指令生成了“WildChecklists”數據集。清單內容為明確的二元判斷項,例如“是否翻譯成西班牙語?”。隨后,大模型對候選回答逐項打分,綜合加權后作為小模型的訓練獎勵信號。
蘋果研究者也坦言該方法存在局限。首先,它依賴更強模型作為評判者,這在資源受限場景下未必可行。其次,RLCF 專注于提升復雜指令執行能力,并非設計用于安全對齊,因此不能替代安全性評估與調優。對于其他任務類型,該方法的適用性仍需進一步驗證。

本文鏈接:http://www.www897cc.com/showinfo-45-27026-0.html蘋果創新“清單法”:用 AI 大模型當“老師”,教小模型更精準執行復雜指令
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com