日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

微軟攜手清華、北大推出獎勵推理模型:根據 AI 任務復雜性動態分配計算資源

來源: 責編: 時間:2025-05-29 09:06:28 47觀看
導讀 5 月 27 日消息,科技媒體 marktechpost 今天(5 月 27 日)發布博文,報道稱微軟研究院聯合清華大學、北京大學組建團隊,推出獎勵推理模型(Reward Reasoning Models,RRMs),通過顯式推理過程動態分配計算資源,提升復雜任務

5 月 27 日消息,科技媒體 marktechpost 今天(5 月 27 日)發布博文,報道稱微軟研究院聯合清華大學、北京大學組建團隊,推出獎勵推理模型(Reward Reasoning Models,RRMs),通過顯式推理過程動態分配計算資源,提升復雜任務評估效果。hQn28資訊網——每日最新資訊28at.com

援引博文介紹,強化學習(Reinforcement Learning,RL)已成為大語言模型(LLM)后訓練的核心方法,通過人類反饋(RLHF)或可驗證獎勵(RLVR)提供監督信號。hQn28資訊網——每日最新資訊28at.com

然而,RLVR 在數學推理中雖有潛力,卻因依賴可驗證答案的訓練查詢而受限,難以應用于通用領域的大規模訓練。hQn28資訊網——每日最新資訊28at.com

此外,現有獎勵模型分為標量型和生成型兩大類,均無法有效擴展測試時的計算資源。當前方法對所有輸入統一分配計算資源,缺乏針對復雜查詢進行細致分析的能力,導致評估效果不佳。hQn28資訊網——每日最新資訊28at.com

為解決上述問題,微軟研究院、清華大學和北京大學的研究者聯手推出獎勵推理模型(RRMs)。RRMs 在給出最終獎勵前執行顯式推理過程,能夠根據任務復雜性自適應分配額外計算資源。hQn28資訊網——每日最新資訊28at.com

這種方法通過“思維鏈”(Chain-of-Thought)推理,針對獎勵不明顯的復雜查詢投入更多測試時計算資源。hQn28資訊網——每日最新資訊28at.com

RRMs 基于 Qwen2 模型,采用 Transformer-decoder 架構,將獎勵建模轉化為文本補全任務,生成推理過程后給出最終判斷。hQn28資訊網——每日最新資訊28at.com

研究團隊利用 RewardBench 庫進行系統分析,評估指標包括指令遵循性、幫助性、準確性、無害性和細節水平。RRMs 還支持多響應評估,通過 ELO 評分系統和淘汰賽機制,結合多數投票提升計算資源利用率。hQn28資訊網——每日最新資訊28at.com

測試結果顯示,RRMs 在 RewardBench 和 PandaLM Test 基準測試中表現突出。其中,RRM-32B 在推理類別中達到 98.6% 的準確率,與使用相同數據訓練的 DirectJudge 模型相比,RRMs 展現出顯著性能差距,證明其在復雜查詢中有效利用測試時計算資源。hQn28資訊網——每日最新資訊28at.com

在獎勵引導的最佳 N 推理(Best-of-N Inference)和后訓練反饋中,RRMs 超越所有基線模型,且進一步提升多數投票機制效率。hQn28資訊網——每日最新資訊28at.com

研究還表明,隨著模型規模從 7B、14B 到 32B 擴展,更長的推理時間始終帶來準確性提升。RRMs 通過并行和順序擴展方法高效利用計算資源,為傳統標量獎勵模型提供強大替代方案。hQn28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-13260-0.html微軟攜手清華、北大推出獎勵推理模型:根據 AI 任務復雜性動態分配計算資源

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: QwenLong-L1-32B 模型登場:阿里通義千問首個強化學習訓練的長文本推理 AI 模型

下一篇: 我國首個軟件開發 AI 智能體標準發布,20 余家巨頭聯手參編

標簽:
  • 熱門焦點
  • B端難做:留給魔琺科技的時間不多了

    來源:零態LT元宇宙泡沫正在碎裂,進入2023年后這一賽道熱度一直在遞減。今年2月,微軟解散了成立僅四個月的工業元宇宙部門;今年3月,該公司2017年收購的虛擬現實社交平臺AltspaceVR
  • VR/AR迷失元宇宙“硝煙”

    不溫不火的VR/AR可穿戴設備因元宇宙崛起火了一陣,又隨著元宇宙回歸平靜。1月份,微軟在 Surface 設備、HoloLens 混合現實硬件和 Xbox 等部門裁員,其中負責混合現實硬件(MR)的Holo
  • 這場虛擬人爭奪戰,互聯網巨頭下場先贏一半?

    撰文/ 孟會緣 近兩年間,要論引得無數互聯網巨頭競折腰的一大熱門產業,莫過于元宇宙領域中的數字人了。 作為繼數字藏品之后,開發元宇宙的又一重點落地項目,互聯網
  • 保時捷推出虛擬超跑,車企元宇宙營銷這么香?

    保時捷又出超跑了,不過這次不是在現實世界,而是在虛擬世界。這款Vision Gran Turismo概念車,由保時捷和日本視頻游戲開發工作室Polyphony Digital聯合打造,將于202
  • 中文在線的“元宇宙”故事,資本聽膩了?

    被譽為“元宇宙”龍頭之一的中文在線,這下尷尬了。2022年1月11日,中國移動通信聯合會元宇宙產業委員會揭牌,接納涉足“元宇宙”的8家上市公司,包括中青寶、天下秀
  • 韓國主權基金增加對硅谷初創公司投資 押注元宇宙和人工智能

    韓國投資公司(KIC)CEO Seoungho Jin預計,該公司在舊金山的辦事處今年將擴招人手,探索在硅谷投資科技、健康和綠色項目。規模高達2000億美元的韓國主權財富基金—
  • 2022年6款最佳的NFT稀有度查詢工具

    NFT正在風靡全球,但擁有一個你自認為看起來很酷的 NFT 是不夠的,因為它還應該是稀有的,稀有度會影響每個 NFT 的價值。因此,如果您打算投資 NFT,則需要使用 NFT 稀
  • 本周NFT領域重要資訊回顧

    NFT在蘇富比拍賣是一波三折的嗎?其實不完全如此,但本周在蘇富比拍賣行發生了一系列有趣的事。與此同時,美聯社因其最新的NFT銷售被推到了風口浪尖,而Opensea正面臨
  • 下一個黃金賽道?NFT的碎片化!

    碎片化可能是我們一生中最重要的一個投資趨勢,碎片化本身并不新鮮。它已經存在了400年之久。早在1602年,荷蘭東印度公司是歷史上第一家在公共證券交易所上市的公
Top 主站蜘蛛池模板: 遵义县| 手机| 专栏| 隆昌县| 古田县| 绥江县| 长乐市| 古交市| 日土县| 金乡县| 松江区| 邯郸市| 桂东县| 鸡西市| 万州区| 建平县| 方城县| 铜梁县| 沾益县| 澎湖县| 习水县| 普兰县| 镇远县| 华宁县| 湘阴县| 双峰县| 盐源县| 安陆市| 江口县| 东阳市| 兴化市| 深泽县| 巴马| 高台县| 揭阳市| 灯塔市| 抚宁县| 上犹县| 桃园县| 临邑县| 罗源县|