5 月 27 日消息,阿里通義千問 Qwen 團隊昨日(5 月 26 日)發布 QwenLong-L1-32B 模型,是其首個通過強化學習訓練的長文本情境推理模型(LRM)。
在七個長文本 DocQA 基準測試中,表現超越 o3-mini 和 Qwen3-235B-A22B 等旗艦模型,與 Claude-3.7-Sonnet-Thinking 相當。
QwenLong-L1-32B 模型最大的亮點,在于上下文窗口最高支持 131072 個 tokens。該模型基于 QwenLong-L1 框架開發,采用了先進的 GRPO(Group Relative Policy Optimization)和 DAPO(Direct Alignment Policy Optimizatio)算法,結合基于規則和基于模型的混合獎勵函數,顯著提升了模型在長上下文推理中的準確性和效率。
具體而言,團隊在監督微調(SFT)階段建立一個穩健的初始策略,隨后采用課程引導的分階段強化學習技術來穩定策略演變,并結合難度感知的回顧采樣策略來激勵策略探索。
除了模型本身,阿里還發布了一套針對長文本推理問題的完整解決方案。該方案包含四個核心組件: 高性能的 QwenLong-L1-32B 模型、專門優化的訓練數據集、創新的強化學習訓練方法,以及全面的性能評估體系。
附上參考地址
GitHub
Huggingface
QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning
本文鏈接:http://www.www897cc.com/showinfo-45-13259-0.htmlQwenLong-L1-32B 模型登場:阿里通義千問首個強化學習訓練的長文本推理 AI 模型
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com