當(dāng)前位置：首頁 > 元宇宙 > AI

QwenLong-L1-32B 模型登場(chǎng)：阿里通義千問首個(gè)強(qiáng)化學(xué)習(xí)訓(xùn)練的長(zhǎng)文本推理 AI 模型

來源：責(zé)編：時(shí)間：2025-05-29 09:06:16 46觀看

導(dǎo)讀 5 月 27 日消息，阿里通義千問 Qwen 團(tuán)隊(duì)昨日（5 月 26 日）發(fā)布 QwenLong-L1-32B 模型，是其首個(gè)通過強(qiáng)化學(xué)習(xí)訓(xùn)練的長(zhǎng)文本情境推理模型（LRM）。在七個(gè)長(zhǎng)文本 DocQA 基準(zhǔn)測(cè)試中，表現(xiàn)超越 o3-mini 和 Qwen3-235B-A22B 等

5 月 27 日消息，阿里通義千問 Qwen 團(tuán)隊(duì)昨日（5 月 26 日）發(fā)布 QwenLong-L1-32B 模型，是其首個(gè)通過強(qiáng)化學(xué)習(xí)訓(xùn)練的長(zhǎng)文本情境推理模型（LRM）。

在七個(gè)長(zhǎng)文本 DocQA 基準(zhǔn)測(cè)試中，表現(xiàn)超越 o3-mini 和 Qwen3-235B-A22B 等旗艦?zāi)Ｐ停c Claude-3.7-Sonnet-Thinking 相當(dāng)。

QwenLong-L1-32B 模型最大的亮點(diǎn)，在于上下文窗口最高支持 131072 個(gè) tokens。該模型基于 QwenLong-L1 框架開發(fā)，采用了先進(jìn)的 GRPO（Group Relative Policy Optimization）和 DAPO（Direct Alignment Policy Optimizatio）算法，結(jié)合基于規(guī)則和基于模型的混合獎(jiǎng)勵(lì)函數(shù)，顯著提升了模型在長(zhǎng)上下文推理中的準(zhǔn)確性和效率。

具體而言，團(tuán)隊(duì)在監(jiān)督微調(diào)（SFT）階段建立一個(gè)穩(wěn)健的初始策略，隨后采用課程引導(dǎo)的分階段強(qiáng)化學(xué)習(xí)技術(shù)來穩(wěn)定策略演變，并結(jié)合難度感知的回顧采樣策略來激勵(lì)策略探索。

除了模型本身，阿里還發(fā)布了一套針對(duì)長(zhǎng)文本推理問題的完整解決方案。該方案包含四個(gè)核心組件: 高性能的 QwenLong-L1-32B 模型、專門優(yōu)化的訓(xùn)練數(shù)據(jù)集、創(chuàng)新的強(qiáng)化學(xué)習(xí)訓(xùn)練方法，以及全面的性能評(píng)估體系。

附上參考地址

GitHub

Huggingface

QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning

本文鏈接：http://www.www897cc.com/showinfo-45-13259-0.htmlQwenLong-L1-32B 模型登場(chǎng)：阿里通義千問首個(gè)強(qiáng)化學(xué)習(xí)訓(xùn)練的長(zhǎng)文本推理 AI 模型

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇：更新：OpenAI 宣布阿聯(lián)酋全境接入 ChatGPT AI

下一篇：微軟攜手清華、北大推出獎(jiǎng)勵(lì)推理模型：根據(jù) AI 任務(wù)復(fù)雜性動(dòng)態(tài)分配計(jì)算資源

標(biāo)簽：

熱門焦點(diǎn)

亞馬遜AIGC全家桶來襲，巨頭AI大亂戰(zhàn)都有什么殺手锏

此前，亞馬遜云科技發(fā)布多款A(yù)IGC產(chǎn)品，其中包括AI大模型服務(wù)Amazon Bedrock、人工智能計(jì)算實(shí)例Amazon EC2 Trn1n和Amazon EC2 Inf2、自研“泰坦”（Titan）AI大模型、軟件
刷完一場(chǎng)元宇宙世界杯音樂盛典，我爽了

作者|劉小土編輯|李春暉你有多久沒完整追過一場(chǎng)音樂盛典了？三刷都不嫌多的那種。按照慣例，每逢年底，直播、長(zhǎng)短視頻、音樂平臺(tái)便會(huì)搶著端上來幾場(chǎng)音樂盛典。擱以
從NFT頂級(jí)公鏈到Web3.0基礎(chǔ)設(shè)施：帶你了解不一樣的Flow

對(duì)于大部分年輕人來說，剛剛過去的春節(jié)有一個(gè)詞語突然成為了品牌宣傳的流行語，作為從NFT中衍生出來的“數(shù)字藏品”一時(shí)間獲得了不少品牌青睞，他們紛紛推出自己的數(shù)
頂流IP“冰墩墩”帶著中國元素NFT進(jìn)入全球視野

一場(chǎng)被國際奧委會(huì)主席評(píng)價(jià)堪稱獨(dú)具匠心、非凡卓越的2022年北京冬季奧運(yùn)會(huì)，在這個(gè)“雙奧之城”經(jīng)歷了16個(gè)令人難忘的精彩日夜，最終圓滿閉幕。讓我們印象深刻的不
2022年去中心化交易所會(huì)崛起嗎？

“在某個(gè)時(shí)候，去中心化衍生品的交易量可能會(huì)超過去中心化現(xiàn)貨交易所。”DEX 越來越多地轉(zhuǎn)向第二層解決方案。“數(shù)字化金融市場(chǎng)的概念以及如何沿著以用戶為中心
Meta 在衰落嗎？

扎克伯格已經(jīng)很久沒有出現(xiàn)在公眾視野里了，近日，他罕見的接受播客采訪，在兩個(gè)小時(shí)的時(shí)間里暢談了Meta、Facebook、Instagram、元宇宙的未來。正方觀點(diǎn)：是的阿倫·達(dá)
知識(shí)產(chǎn)權(quán)可能在元宇宙中“消失”？

開篇老雅痞先來劃重點(diǎn)：一些公司開始采取積極的方式來保護(hù)他們?cè)谠钪娴闹R(shí)產(chǎn)權(quán)。耐克、愛馬仕和米拉麥克斯最近提起訴訟，聲稱NFT侵犯了他們的知識(shí)產(chǎn)權(quán)。Inside
元宇宙專題二：GameFi 深度解析，元宇宙內(nèi)容雛形顯現(xiàn)

GameFi=Game（游戲）+DEFI（去中心化金融），核心特點(diǎn)為“Play to Earn”。通過技術(shù)與去中心化價(jià)值觀賦能，GameFi 游戲資產(chǎn)化身為NFT 和代幣上鏈，具備了可驗(yàn)證性和流通性；開
初探元宇宙

2021年可以被稱為“元宇宙”元年。繼2021年3月沙盒游戲平臺(tái)Roblox將“元宇宙”概念放入招股書中，被稱為“元宇宙”第一股后，F(xiàn)acebook更名為Meta, 引發(fā)全球范圍內(nèi)

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

QwenLong-L1-32B 模型登場(chǎng)：阿里通義千問首個(gè)強(qiáng)化學(xué)習(xí)訓(xùn)練的長(zhǎng)文本推理 AI 模型

亞馬遜AIGC全家桶來襲，巨頭AI大亂戰(zhàn)都有什么殺手锏

刷完一場(chǎng)元宇宙世界杯音樂盛典，我爽了

從NFT頂級(jí)公鏈到Web3.0基礎(chǔ)設(shè)施：帶你了解不一樣的Flow

頂流IP“冰墩墩”帶著中國元素NFT進(jìn)入全球視野

2022年去中心化交易所會(huì)崛起嗎？

Meta 在衰落嗎？

知識(shí)產(chǎn)權(quán)可能在元宇宙中“消失”？

元宇宙專題二：GameFi 深度解析，元宇宙內(nèi)容雛形顯現(xiàn)

初探元宇宙

最新推薦

人間誠實(shí)周鴻祎：360 All in 大模型的六個(gè)解讀

AI大模型“戰(zhàn)火”燒到了教育領(lǐng)域

2022年元宇宙系列報(bào)告：UGC當(dāng)?shù)溃琗R帶來新交互體驗(yàn)

用戶可以把自己的醫(yī)療健康數(shù)據(jù)做成NFT出售給醫(yī)藥公司掙錢

融資千萬美元的元宇宙平臺(tái)UGC到底是什么？

從NFT數(shù)字收藏，洞察數(shù)字音樂版權(quán)市場(chǎng)發(fā)展趨勢(shì)

猜你喜歡

熱門推薦

相關(guān)資訊