7 月 22 日消息,阿里云今天更新了旗艦版 Qwen3 模型,推出 Qwen3-235B-A22B-FP8 非思考模式(Non-thinking)的更新版本,命名為 Qwen3-235B-A22B-Instruct-2507-FP8。
阿里云表示,在經(jīng)過(guò)與社區(qū)溝通和深思熟慮后,決定停止使用混合思考模式,轉(zhuǎn)為分別訓(xùn)練 Instruct 和 Thinking 模型,以獲得最佳質(zhì)量。
據(jù)介紹,新的 Qwen3 模型通用能力顯著提升,包括指令遵循、邏輯推理、文本理解、數(shù)學(xué)、科學(xué)、編程及工具使用等方面,在 GQPA(知識(shí))、AIME25(數(shù)學(xué))、LiveCodeBench(編程)、Arena-Hard(人類偏好對(duì)齊)、BFCL(Agent 能力)等眾多測(cè)評(píng)中表現(xiàn)出色,超過(guò) Kimi-K2、DeepSeek-V3 等頂級(jí)開源模型以及 Claude-Opus4-Non-thinking 等領(lǐng)先閉源模型。
FP8 版本的 Qwen3-235B-A22B-Instruct-2507 具有以下功能特點(diǎn):
類型:因果語(yǔ)言模型 / 自回歸語(yǔ)言模型
訓(xùn)練階段:預(yù)訓(xùn)練與后訓(xùn)練
參數(shù)量:總共 235B,激活 22B
參數(shù)量(非嵌入):234B
層數(shù):94
注意頭數(shù)(GQA): Q 為 64,KV 為 4
專家數(shù):128
激活專家數(shù):8
上下文長(zhǎng)度:原生支持 262,144。
阿里云表示,本次更新的 Qwen3 模型,還增強(qiáng)了以下關(guān)鍵性能:
在多語(yǔ)言的長(zhǎng)尾知識(shí)覆蓋方面,模型取得顯著進(jìn)步。
在主觀及開放性任務(wù)中,模型顯著增強(qiáng)了對(duì)用戶偏好的契合能力,能夠提供更有用的回復(fù),生成更高質(zhì)量的文本。
長(zhǎng)文本提升到 256K,上下文理解能力進(jìn)一步增強(qiáng)。
目前,Qwen3 新模型已在魔搭社區(qū)和 HuggingFace 上開源更新,附官方地址:
官網(wǎng)地址:https://chat.qwen.ai/
HuggingFace:https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507-FP8
魔塔社區(qū):https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507-FP8
本文鏈接:http://www.www897cc.com/showinfo-45-14799-0.html阿里云通義千問(wèn) Qwen 3 旗艦版模型宣布更新:性能全面提升,超越 Kimi、DeepSeek 等行業(yè)頂尖水平
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: OpenAI:ChatGPT 平均每天要收到用戶 25 億條提示詞
下一篇: 奧爾特曼:DeepSeek 團(tuán)隊(duì)很有才華,但他們沒(méi)找到比 OpenAI 更高效的方法