昆侖萬維在人工智能領域再度發力,于近期正式推出了其第二代獎勵模型系列——Skywork-Reward-V2。這一系列共涵蓋了8個不同規模的模型,參數量從6億至80億不等,均基于不同的基座模型構建。令人矚目的是,Skywork-Reward-V2系列一經問世,便迅速在七大主流獎勵模型評測中脫穎而出,全面奪得榜首,成為開源獎勵模型領域的新星。Onw28資訊網——每日最新資訊28at.com
獎勵模型在強化學習從人類反饋(RLHF)的過程中扮演著核心角色。為了打造這一全新系列的獎勵模型,昆侖萬維精心構建了一個包含4000萬對偏好對比的混合數據集Skywork-SynPref-40M。在數據處理策略上,團隊創新性地采用了人機協同的兩階段流程,巧妙地將人工標注的高質量與模型的大規模處理能力相結合。在第一階段,團隊首先構建了一個初始的、未經驗證的偏好池,并借助大語言模型生成輔助屬性。隨后,人工標注者依據嚴格的協議,借助外部工具和大語言模型,對部分數據進行精細審核,從而構建出一個小規模但高質量的金標準數據集。以此為引導,結合大語言模型,團隊進一步生成了高質量的銀標準數據,并通過多輪迭代不斷優化。進入第二階段,團隊轉向自動化的大規模數據擴展,利用訓練完成的獎勵模型執行一致性過濾,既減輕了人工標注的負擔,又實現了偏好數據規模與質量的完美平衡。Onw28資訊網——每日最新資訊28at.com
基于這一優質的混合偏好數據,Skywork-Reward-V2系列展現出了廣泛的適用性和卓越的能力。它不僅在人類偏好的通用對齊、客觀正確性、安全性、風格偏差抵抗能力以及best-of-N擴展能力等多個維度上表現出色,還在Reward Bench v1/v2、PPE Preference & Correctness、RMB、RM-Bench、JudgeBench等七大主流獎勵模型評估基準上全面達到了當前最優水平。即便是系列中最小的模型Skywork-Reward-V2-Qwen3-0.6B,其整體性能也幾乎達到了上一代最強模型的平均水平,而Skywork-Reward-V2-Qwen3-1.7B更是超越了當前開源獎勵模型的最高水平。最大規模的模型Skywork-Reward-V2-Llama-3.1-8B在所有主流基準測試中均全面超越,成為了當前整體表現最優的開源獎勵模型。Onw28資訊網——每日最新資訊28at.com
Skywork-Reward-V2系列還具備廣泛覆蓋多維人類偏好的能力。在通用偏好評估基準上,它優于多個參數更大的模型以及最新的生成型獎勵模型;在客觀正確性評估方面,它在知識密集型任務中展現出了突出的表現;在多項高級能力評估中,包括Best-of-N任務、偏見抵抗能力測試、復雜指令理解以及真實性判斷等,均取得了領先的成績,充分展現了其出色的泛化能力與實用性。Onw28資訊網——每日最新資訊28at.com
數據篩選流程的高度擴展性也顯著提升了獎勵模型的性能。經過精細篩選和過濾的偏好數據,在多輪迭代訓練中能夠持續有效地提升模型的整體性能,特別是在第二階段的全自動數據擴展中表現尤為顯著。早期版本的實驗結果顯示,僅需使用1.8%的高質量數據訓練8B規模的模型,其性能就能超越當前的70B級最高水平獎勵模型,這充分印證了Skywork-SynPref數據集在規模和質量上的顯著優勢。Onw28資訊網——每日最新資訊28at.com
對于感興趣的研究人員和開發者來說,可以通過以下鏈接獲取更多關于Skywork-Reward-V2系列的信息和資源:HuggingFace地址為https://huggingface.co/collections/Skywork/skywork-reward-v2-685cc86ce5d9c9e4be500c84,GitHub地址為https://github.com/SkyworkAI/Skywork-Reward-V2。Onw28資訊網——每日最新資訊28at.com
舉報 0收藏 0打賞 0分享 0 更多>同類資訊CoreWeave首商用英偉達Blackwell Ultra芯片,引領AI云計算新篇章07-04MiniMax-M1登頂開源AI榜,技術實力彰顯,引領行業新風潮07-04英偉達股價攀升至新高,市值突破3.89萬億美元成全球科技新領袖07-04

微軟年內二度大規模裁員,近9000崗位受影響07-04

ABB推出三款新型機器人,瞄準中國中型企業自動化需求IT之家 7 月 3 日消息,據路透社報道,瑞士工程巨頭 ABB周三宣布,將面向中國市場推出三款新型工廠機器人系列,瞄準對自動化需求日益增長的中國中型企業。 根據國際機器人聯合會的數據,中國已成為全球最大的…07-04

中國移動中興通訊聯手打造“聯創+”自智網絡實驗室,加速科技創新成果轉化近日,中國移動通信集團有限公司與中興通訊股份有限公司在北京舉行“聯創+”自智網絡開放實驗室揭牌儀式。此舉旨在貫徹國家科技創新驅動發展戰略,加速自智網絡高階發展。 中國移動副總經理李慧鏑強調,通信產業是推動社會…07-04

榮耀Magic V5深度評測:極致輕薄下的性能與智能新高度在性能上,榮耀Magic V5并沒有因為輕薄而向性能妥協,這恰好就是用戶的理想型。如果你想要擁有一部折疊屏手機雙持的話,那么榮耀Magic V5一定就是一個不錯的選擇,不僅輕薄,而且還沒有傳輸壁壘,想怎么傳…07-04

智譜AI上海子公司增資近50倍,寰宇科技公司資本躍升至5億07-04

優必選杭州布局,新設智行機器人公司,注冊資本高達5000萬!07-04

歌爾股份杭州新設歌爾泰克,注冊資本達500萬引關注07-04

中石油昆侖資本攜手山東未來機器人,共譜智能制造新篇章07-04

AI賦能熱輻射超材料設計,批量創制方案突破傳統設計上限金屬基復合材料全國重點實驗室、上海交通大學材料科學與工程學院、張江高等研究院未來材料創制中心教授周涵表示,熱輻射超材料的設計難點在于缺乏普適性方法,即缺乏多材料、多結構、多維度、多參數的全自動設計范式及通用方…07-03

Fortinet連續第二年榮膺Gartner企業級WLAN魔力象限領導者Fortinet 全面集成至 Fortinet Security Fabric 的企業級有線和無線局域網解決方案,為用戶打造經實踐檢驗、以人工智能驅動的安全平臺,全面融合網絡與安全性,助力用戶降低復雜性、緩…07-03外灘大會AI科創賽啟幕,探索生活變革、金融智能與安全防護新應用07-03

外灘大會AI科創賽盛啟,三大領域角逐百萬獎金共促創新7月3日,2025 Inclusion·外灘大會科技智能創新賽(簡稱“外灘大會AI科創賽”)正式啟動,本屆大賽在上海市科學技術委員會指導下,聚焦AI智能硬件、金融智能、AI安全等領域創新應用,設置人工智能硬…07-03點擊查看更多 +
全站最新
黑洞之謎:高維度或是解開其本質的關鍵線索

長四丙火箭西昌再建功,成功發射試驗二十八號B星01星入軌

哈工大錄取通知書:宇宙級浪漫,攜夢想上太空

小鵬G7正式上市挑戰Model Y,何小鵬:智能算力新紀元開啟,9分鐘大定破萬

豐田借勢漲價,或加速供應鏈倒戈,國產電車面臨新挑戰

小鵬G7正式上市:L3級算力引領智駕新時代,起售價19.58萬元
熱門內容- 高考志愿填報熱潮中,夸克“深度搜索”成考生新寵,人均使用4次尋建議
- 馬斯克宣布Grok 4大模型即將面世,或專為編程打造
- 高考志愿填報熱潮下,夸克“深度搜索”助力考生,人均使用達4次
- 蘋果AI「Apple Intelligence」國行版,終于要來了嗎?
- QQ瀏覽器AI高考通新上線:智能生成高考志愿報告,助你科學填報!
- 火山引擎PromptPilot:一鍵優化指令,解鎖AI大模型新效能
- 阿里領投硅基流動,清華系AI創企再獲數億融資,DeepSeek流量爆棚后新動作?
- 夸克高考志愿大模型上線,讓每個考生擁有自己的AI志愿填報顧問!
- 字節跳動火山引擎發布豆包1.6與Seedance1.0,AI技術再升級成本大降
- 淘天集團RecGPT大模型上線,電商推薦迎來個性化新升級
- 英偉達攬才:清華“天才少年”朱邦華攜手焦劍濤加盟
- 優志愿鴻蒙版上線,AI智能填報高考志愿,科學規劃升學新路徑
- 字節跳動美食AI“探飯”內測,豆包大模型助力本地生活服務升級
- 麥芒40新機大揭秘:5000萬像素主攝搭配6100mAh電池,設計如何?
- 小紅書首次開源大模型,1420億參數媲美阿里Qwen3,AI版圖再擴張
本欄最新
微軟年內二度大規模裁員,近9000崗位受影響

ABB推出三款新型機器人,瞄準中國中型企業自動化需求

中國移動中興通訊聯手打造“聯創+”自智網絡實驗室,加速科技創新成果轉化

榮耀Magic V5深度評測:極致輕薄下的性能與智能新高度

智譜AI上海子公司增資近50倍,寰宇科技公司資本躍升至5億

優必選杭州布局,新設智行機器人公司,注冊資本高達5000萬!
本文鏈接:http://www.www897cc.com/showinfo-45-14321-0.html昆侖萬維發布Skywork-Reward-V2獎勵模型,全面奪魁七大主流評測榜單
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: 中國醫療大模型領跑全球,畢馬威展望智能醫療市場巨大潛力
下一篇: CoreWeave首商用英偉達Blackwell Ultra芯片,引領AI云計算新篇章