當前位置：首頁 > 元宇宙 > AI

昆侖萬維發布Skywork-Reward-V2獎勵模型，全面奪魁七大主流評測榜單

來源：責編：時間：2025-07-04 12:13:08 12觀看

導讀昆侖萬維在人工智能領域再度發力，于近期正式推出了其第二代獎勵模型系列——Skywork-Reward-V2。這一系列共涵蓋了8個不同規模的模型，參數量從6億至80億不等，均基于不同的基座模型構建。令人矚目的是，Skywork-Reward-V2系

昆侖萬維在人工智能領域再度發力，于近期正式推出了其第二代獎勵模型系列——Skywork-Reward-V2。這一系列共涵蓋了8個不同規模的模型，參數量從6億至80億不等，均基于不同的基座模型構建。令人矚目的是，Skywork-Reward-V2系列一經問世，便迅速在七大主流獎勵模型評測中脫穎而出，全面奪得榜首，成為開源獎勵模型領域的新星。

獎勵模型在強化學習從人類反饋（RLHF）的過程中扮演著核心角色。為了打造這一全新系列的獎勵模型，昆侖萬維精心構建了一個包含4000萬對偏好對比的混合數據集Skywork-SynPref-40M。在數據處理策略上，團隊創新性地采用了人機協同的兩階段流程，巧妙地將人工標注的高質量與模型的大規模處理能力相結合。在第一階段，團隊首先構建了一個初始的、未經驗證的偏好池，并借助大語言模型生成輔助屬性。隨后，人工標注者依據嚴格的協議，借助外部工具和大語言模型，對部分數據進行精細審核，從而構建出一個小規模但高質量的金標準數據集。以此為引導，結合大語言模型，團隊進一步生成了高質量的銀標準數據，并通過多輪迭代不斷優化。進入第二階段，團隊轉向自動化的大規模數據擴展，利用訓練完成的獎勵模型執行一致性過濾，既減輕了人工標注的負擔，又實現了偏好數據規模與質量的完美平衡。

基于這一優質的混合偏好數據，Skywork-Reward-V2系列展現出了廣泛的適用性和卓越的能力。它不僅在人類偏好的通用對齊、客觀正確性、安全性、風格偏差抵抗能力以及best-of-N擴展能力等多個維度上表現出色，還在Reward Bench v1/v2、PPE Preference & Correctness、RMB、RM-Bench、JudgeBench等七大主流獎勵模型評估基準上全面達到了當前最優水平。即便是系列中最小的模型Skywork-Reward-V2-Qwen3-0.6B，其整體性能也幾乎達到了上一代最強模型的平均水平，而Skywork-Reward-V2-Qwen3-1.7B更是超越了當前開源獎勵模型的最高水平。最大規模的模型Skywork-Reward-V2-Llama-3.1-8B在所有主流基準測試中均全面超越，成為了當前整體表現最優的開源獎勵模型。

Skywork-Reward-V2系列還具備廣泛覆蓋多維人類偏好的能力。在通用偏好評估基準上，它優于多個參數更大的模型以及最新的生成型獎勵模型；在客觀正確性評估方面，它在知識密集型任務中展現出了突出的表現；在多項高級能力評估中，包括Best-of-N任務、偏見抵抗能力測試、復雜指令理解以及真實性判斷等，均取得了領先的成績，充分展現了其出色的泛化能力與實用性。

數據篩選流程的高度擴展性也顯著提升了獎勵模型的性能。經過精細篩選和過濾的偏好數據，在多輪迭代訓練中能夠持續有效地提升模型的整體性能，特別是在第二階段的全自動數據擴展中表現尤為顯著。早期版本的實驗結果顯示，僅需使用1.8%的高質量數據訓練8B規模的模型，其性能就能超越當前的70B級最高水平獎勵模型，這充分印證了Skywork-SynPref數據集在規模和質量上的顯著優勢。

對于感興趣的研究人員和開發者來說，可以通過以下鏈接獲取更多關于Skywork-Reward-V2系列的信息和資源：HuggingFace地址為https://huggingface.co/collections/Skywork/skywork-reward-v2-685cc86ce5d9c9e4be500c84，GitHub地址為https://github.com/SkyworkAI/Skywork-Reward-V2。

舉報 0收藏 0打賞 0評論 0 更多>同類資訊CoreWeave首商用英偉達Blackwell Ultra芯片，引領AI云計算新篇章07-04MiniMax-M1登頂開源AI榜，技術實力彰顯，引領行業新風潮07-04英偉達股價攀升至新高，市值突破3.89萬億美元成全球科技新領袖07-04

微軟年內二度大規模裁員，近9000崗位受影響07-04

ABB推出三款新型機器人，瞄準中國中型企業自動化需求IT之家 7 月 3 日消息，據路透社報道，瑞士工程巨頭 ABB周三宣布，將面向中國市場推出三款新型工廠機器人系列，瞄準對自動化需求日益增長的中國中型企業。根據國際機器人聯合會的數據，中國已成為全球最大的…07-04

中國移動中興通訊聯手打造“聯創+”自智網絡實驗室，加速科技創新成果轉化近日，中國移動通信集團有限公司與中興通訊股份有限公司在北京舉行“聯創+”自智網絡開放實驗室揭牌儀式。此舉旨在貫徹國家科技創新驅動發展戰略，加速自智網絡高階發展。中國移動副總經理李慧鏑強調，通信產業是推動社會…07-04

榮耀Magic V5深度評測：極致輕薄下的性能與智能新高度在性能上，榮耀Magic V5并沒有因為輕薄而向性能妥協，這恰好就是用戶的理想型。如果你想要擁有一部折疊屏手機雙持的話，那么榮耀Magic V5一定就是一個不錯的選擇，不僅輕薄，而且還沒有傳輸壁壘，想怎么傳…07-04

智譜AI上海子公司增資近50倍，寰宇科技公司資本躍升至5億07-04

優必選杭州布局，新設智行機器人公司，注冊資本高達5000萬！07-04

歌爾股份杭州新設歌爾泰克，注冊資本達500萬引關注07-04

中石油昆侖資本攜手山東未來機器人，共譜智能制造新篇章07-04

AI賦能熱輻射超材料設計，批量創制方案突破傳統設計上限金屬基復合材料全國重點實驗室、上海交通大學材料科學與工程學院、張江高等研究院未來材料創制中心教授周涵表示，熱輻射超材料的設計難點在于缺乏普適性方法，即缺乏多材料、多結構、多維度、多參數的全自動設計范式及通用方…07-03

Fortinet連續第二年榮膺Gartner企業級WLAN魔力象限領導者Fortinet 全面集成至 Fortinet Security Fabric 的企業級有線和無線局域網解決方案，為用戶打造經實踐檢驗、以人工智能驅動的安全平臺，全面融合網絡與安全性，助力用戶降低復雜性、緩…07-03外灘大會AI科創賽啟幕，探索生活變革、金融智能與安全防護新應用07-03

外灘大會AI科創賽盛啟，三大領域角逐百萬獎金共促創新7月3日，2025 Inclusion·外灘大會科技智能創新賽（簡稱“外灘大會AI科創賽”）正式啟動，本屆大賽在上海市科學技術委員會指導下，聚焦AI智能硬件、金融智能、AI安全等領域創新應用，設置人工智能硬…07-03點擊查看更多 +全站最新

黑洞之謎：高維度或是解開其本質的關鍵線索

長四丙火箭西昌再建功，成功發射試驗二十八號B星01星入軌

哈工大錄取通知書：宇宙級浪漫，攜夢想上太空

小鵬G7正式上市挑戰Model Y，何小鵬：智能算力新紀元開啟，9分鐘大定破萬

豐田借勢漲價，或加速供應鏈倒戈，國產電車面臨新挑戰

小鵬G7正式上市：L3級算力引領智駕新時代，起售價19.58萬元熱門內容

高考志愿填報熱潮中，夸克“深度搜索”成考生新寵，人均使用4次尋建議
馬斯克宣布Grok 4大模型即將面世，或專為編程打造
高考志愿填報熱潮下，夸克“深度搜索”助力考生，人均使用達4次
蘋果AI「Apple Intelligence」國行版，終于要來了嗎？
QQ瀏覽器AI高考通新上線：智能生成高考志愿報告，助你科學填報！
火山引擎PromptPilot：一鍵優化指令，解鎖AI大模型新效能
阿里領投硅基流動，清華系AI創企再獲數億融資，DeepSeek流量爆棚后新動作？
夸克高考志愿大模型上線，讓每個考生擁有自己的AI志愿填報顧問！
字節跳動火山引擎發布豆包1.6與Seedance1.0，AI技術再升級成本大降
淘天集團RecGPT大模型上線，電商推薦迎來個性化新升級
英偉達攬才：清華“天才少年”朱邦華攜手焦劍濤加盟
優志愿鴻蒙版上線，AI智能填報高考志愿，科學規劃升學新路徑
字節跳動美食AI“探飯”內測，豆包大模型助力本地生活服務升級
麥芒40新機大揭秘：5000萬像素主攝搭配6100mAh電池，設計如何？
小紅書首次開源大模型，1420億參數媲美阿里Qwen3，AI版圖再擴張

本欄最新

微軟年內二度大規模裁員，近9000崗位受影響

ABB推出三款新型機器人，瞄準中國中型企業自動化需求

中國移動中興通訊聯手打造“聯創+”自智網絡實驗室，加速科技創新成果轉化

榮耀Magic V5深度評測：極致輕薄下的性能與智能新高度

智譜AI上海子公司增資近50倍，寰宇科技公司資本躍升至5億

優必選杭州布局，新設智行機器人公司，注冊資本高達5000萬！

本文鏈接：http://www.www897cc.com/showinfo-45-14321-0.html昆侖萬維發布Skywork-Reward-V2獎勵模型，全面奪魁七大主流評測榜單

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：中國醫療大模型領跑全球，畢馬威展望智能醫療市場巨大潛力

下一篇： CoreWeave首商用英偉達Blackwell Ultra芯片，引領AI云計算新篇章

標簽：

熱門焦點

星展銀行(DBS)計劃推出零售數字資產交易服務

2月14日消息，新加坡星展銀行CEO Piyush Gupta在財報會議上表示，計劃于2022年年底前推出零售數字資產交易服務。據悉，DBS于2021年初開設了機構數字資產交易平臺，全
國內涌現70余家數字藏品平臺：合規、流量與利潤在博弈

作者：楊鄭君2月16日，迅雷鏈企業數字藏品服務平臺正式上線，繼阿里、騰訊、京東、百度、網易等之后，又一家互聯網企業正式加入到火熱的數字藏品平臺的競爭中。除互聯
“我沒搞懂元宇宙，但一天能賺9w塊”

作者：鄭宇軒最近幾個月，“元宇宙”爆火，除了 Facebook 改名為 Meta 高調進軍元宇宙外， BAT 為代表的大廠紛紛著手“元宇宙”新業務。剎那之間，元宇宙成為新風口，除了
2022年元宇宙系列報告：UGC當道，XR帶來新交互體驗

UGC作為元宇宙的主要內容創作模式，已經越來越多的呈現于游戲、娛樂、社交、傳媒等方面，UGC模式勾勒了元宇宙的邊界，現今元宇宙UGC模式的主要呈現方式以元宇宙概念
Shiba Inu布局元宇宙走出Meme局限

以「狗狗幣殺手」成名的Shiba Inu（SHIB）在人們的印象中始終有著濃厚的Meme（模因惡搞）烙印，但它似乎一直在嘗試突破這種局限。建立起一個龐大的粉絲社區后，Shiba Inu
過去女性在互聯網領域是半邊天，在Web3，將會是整片天！

Web 2.0 是由幾家“直男”大公司塑造的。接下來的Web3世界中，如果女性在創造性方面發揮更大的作用，可能會讓這個新時代更受歡迎、更安全和公平。當我們談論 Web3
在元宇宙開會是什么樣一種體驗

空間就是一切還記得面對面的會議嗎？就在不久前，與會者需要飛到遙遠的目的地，并進行鼓舞人心的對話、網絡、免費食物，甚至可能會有一兩個很好的小組討論。隨之而來
花旗集團前高管加入Provenance區塊鏈，擔任CEO

No.1 花旗集團前高管加入Provenance區塊鏈，擔任CEO3月1日消息，Provenance區塊鏈基金會已任命花旗集團前高管摩根·麥肯尼（Morgan McKenney）為新任首席執行官。麥肯
元宇宙的應用行業研究：娛樂可能是元宇宙落地最快的場景之一

近日，畢馬威正式發布其《初探元宇宙》報告，這也是畢馬威在元宇宙領域發布的首份報告。報告指出，元宇宙在以下十個領域的應用場景尤其值得期待，包括娛樂、社交、零

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

昆侖萬維發布Skywork-Reward-V2獎勵模型，全面奪魁七大主流評測榜單

星展銀行(DBS)計劃推出零售數字資產交易服務

國內涌現70余家數字藏品平臺：合規、流量與利潤在博弈

“我沒搞懂元宇宙，但一天能賺9w塊”

2022年元宇宙系列報告：UGC當道，XR帶來新交互體驗

Shiba Inu布局元宇宙走出Meme局限

過去女性在互聯網領域是半邊天，在Web3，將會是整片天！

在元宇宙開會是什么樣一種體驗

花旗集團前高管加入Provenance區塊鏈，擔任CEO

元宇宙的應用行業研究：娛樂可能是元宇宙落地最快的場景之一

最新推薦

元宇宙的文旅賽道，還能如何發力？

完美世界被元宇宙“拒之門外”

“我沒搞懂元宇宙，但一天能賺9w塊”

NFT教育要從娃娃抓起！這些青少年藝術家已經賺取了幾千萬美金

Web 3如何改變傳統HR

NFTs正迎來數十億美元的繁榮--NFT零工經濟從業者開始暴賺

猜你喜歡

熱門推薦

相關資訊