當前位置：首頁 > 元宇宙 > AI

Meta 推出 J1 系列模型：革新 LLM-as-a-Judge，打造最強“AI 法官”

來源：責編：時間：2025-05-24 11:06:52 65觀看

導讀 5 月 22 日消息，科技媒體 marktechpost 昨日（5 月 21 日）發布博文，報道稱 Meta 公司推出 J1 系列模型，通過強化學習和合成數據訓練，顯著提升判斷模型準確性和公平性。項目背景大型語言模型（LLM）正在突破傳統角色，逐步

5 月 22 日消息，科技媒體 marktechpost 昨日（5 月 21 日）發布博文，報道稱 Meta 公司推出 J1 系列模型，通過強化學習和合成數據訓練，顯著提升判斷模型準確性和公平性。

項目背景

大型語言模型（LLM）正在突破傳統角色，逐步承擔起評估與判斷的重任。這種“LLM-as-a-Judge”的模式，讓 AI 模型能夠審查其他語言模型的輸出，成為強化學習、基準測試和系統對齊的重要工具。

不同于傳統的獎勵模型直接打分，判斷模型通過內部鏈式推理（chain-of-thought reasoning）模擬人類思考，特別適合數學解題、倫理推理和用戶意圖解讀等復雜任務，還能跨語言和領域驗證回應，推動語言模型開發的自動化和擴展性。

不過“LLM-as-a-Judge”模式目前面臨的挑戰是一致性差和推理深度不足，許多系統依賴基本指標或靜態標注，無法有效評估主觀或開放性問題；另一個問題就是位置偏見（position bias）答案順序常影響最終判斷，損害公平性。

此外，大規模收集人工標注數據成本高昂且耗時，限制了模型的泛化能力。EvalPlanner 和 DeepSeek-GRM 等現有解決方案依賴人工標注或僵化訓練模式，適應性有限。

J1 模型的創新突破

為解決上述問題，Meta 的 GenAI 和 FAIR 團隊研發了 J1 模型。J1 通過強化學習框架訓練，采用可驗證的獎勵信號學習，使用 22000 個合成偏好對（包括 17000 個 WildChat 語料和 5000 個數學查詢）構建數據集，訓練出 J1-Llama-8B 和 J1-Llama-70B 兩款模型。

團隊還引入 Group Relative Policy Optimization（GRPO）算法，簡化訓練過程，并通過位置無關學習（position-agnostic learning）和一致性獎勵機制消除位置偏見。

J1 支持多種判斷格式，包括成對判斷、評分和單項評分，展現出極高的靈活性和通用性。

測試結果顯示，J1 模型性能大幅領先。在 PPE 基準測試中，J1-Llama-70B 準確率達 69.6%，超越 DeepSeek-GRM-27B（67.2%）和 EvalPlanner-Llama-70B（65.6%）；即便是較小的 J1-Llama-8B，也以 62.2% 的成績擊敗 EvalPlanner-Llama-8B（55.5%）。

J1 還在 RewardBench、JudgeBench 等多個基準測試中展現出頂級表現，證明其在可驗證和主觀任務上的強大泛化能力，表明推理質量而非數據量，是判斷模型精準的關鍵。

本文鏈接：http://www.www897cc.com/showinfo-45-13122-0.htmlMeta 推出 J1 系列模型：革新 LLM-as-a-Judge，打造最強“AI 法官”

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：谷歌創意利器 Canvas 升級 Gemini 2.5：降低開發門檻，AI 多樣化呈現文本內容

下一篇：熱車秘籍：轉速還是水溫？掌握正確方法，愛車更長壽！

標簽：

熱門焦點

不同于傳統數字經濟，元宇宙賦予商業生態更多數字資產價值！

作者：中科基大數據元宇宙是一個去中心化的開放平臺，而為了維護這樣的平臺，需要建立一個公平的游戲規則，確保每個元宇宙的參與者通過這個規則都可以掙到錢，他們的利益都可以得到保
現在的元宇宙：一款低配版的科幻游戲

在2021年的歲末之際，不禁感嘆元宇宙元年之熱鬧，從元宇宙NFT頭像，到元宇宙數字地產，再到元宇宙旅游景區等等，仿佛科幻感十足的元宇宙眨眼間就從人們的概念認知中完全
NFT的未來：傳統企業與去中心化機構之間的競賽

傳統企業和去中心化機構一直存在分歧，但最近NFT的爆炸式增長讓他們產生了共同的興趣，雙方都在競相讓用戶更輕松、更方便地使用NFT。毫無疑問，NFT 市場正在增長。
超級碗的加密時刻：是主流信號還是“網絡超級碗2.0”？

2 月 13 日，美東時間 18:30，有著“美國春晚”之譽的超級碗（Super Bowl）落下帷幕。超級碗是美國國家美式足球聯盟（也稱為國家橄欖球聯盟）的年度冠軍賽，勝者將成為“世
百度元宇宙希壤是什么？（附下載）

百度元宇宙希壤是什么，最近很多人關注。還有很多人問希壤怎么下載、百度希壤怎么進入？今天小編帶你來全面了解一下。“希壤”是百度于2021年12月27日于百度AI開
紐約街頭出現NFT自動販賣機

一家初創公司宣布在紐約市開放一臺NFT自動售貨機，允許任何人——即使是沒有加密資產的人也能購買NFT。該交易平臺名為Neon，上個月完成了一輪300萬美元的種子募捐
DAO登上了歷史舞臺，但是主流準備好采用DAO了嗎？

Block-807DAO要么是定義虛擬未來、無領導組織的革命性概念，要么是充滿存在主義和自我毀滅挑戰的反烏托邦結構，取決于你在與誰交談。近幾個月來， DAO已經從Crypto
Staking 收益翻倍？

以太坊質押可能很快就會有兩倍的利潤。Coinbase 估計，在 1 月份以太坊網絡合并后，持有 ETH 的回報將翻倍。增長預期假設來自加密貨幣交易所 Coinbase 的估計是準
元宇宙+劇本殺：“在異世界里當演員”

你玩過劇本殺嗎？體驗過“元宇宙+劇本殺”嗎？2月，恒信東方推出了一款次時代劇本殺原創作品——《失落的王朝》。其劇本和線索以數字化資產打造，通過VR技術塑造了與

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

Meta 推出 J1 系列模型：革新 LLM-as-a-Judge，打造最強“AI 法官”

不同于傳統數字經濟，元宇宙賦予商業生態更多數字資產價值！

現在的元宇宙：一款低配版的科幻游戲

NFT的未來：傳統企業與去中心化機構之間的競賽

超級碗的加密時刻：是主流信號還是“網絡超級碗2.0”？

百度元宇宙希壤是什么？（附下載）

紐約街頭出現NFT自動販賣機

DAO登上了歷史舞臺，但是主流準備好采用DAO了嗎？

Staking 收益翻倍？

元宇宙+劇本殺：“在異世界里當演員”

最新推薦

元宇宙終究沒火過兩年

超跑與NFT的首次結合，蘭博基尼能否破局？

“啫喱”超越微信登頂：首款“元宇宙社交App”會曇花一現嗎？

智能人機交互技術的春晚大考

扎克伯格演示了一種“造物主”式的元宇宙語音機器人工具

如何在元宇宙中建立品牌忠誠度

猜你喜歡

熱門推薦

相關資訊