6 月 4 日消息,快手 Kwaipilot 團(tuán)隊(duì)近日開源了 KwaiCoder-AutoThink-preview 自動(dòng)思考大模型,針對(duì)近期深度思考大模型存在的“過度思考”問題進(jìn)行了深入研究。團(tuán)隊(duì)提出了一種全新的自動(dòng)思考模型訓(xùn)練范式,同時(shí)基于傳統(tǒng)強(qiáng)化學(xué)習(xí)算法(GRPO),提出了帶有過程監(jiān)督的強(qiáng)化學(xué)習(xí)方法 Step-SRPO,以進(jìn)一步提升模型在復(fù)雜任務(wù)中的表現(xiàn)。
據(jù)介紹,該模型融合了“思考”和“非思考”能力,號(hào)稱“DeepSeek-V3 & R1 合體”,具備根據(jù)問題難度自動(dòng)切換思考形態(tài)的能力。通過進(jìn)行這種思考形態(tài)訓(xùn)練,模型在多個(gè)“思考”和“非思考”評(píng)測(cè)榜單上均實(shí)現(xiàn)了性能提升,其中在部分代碼和數(shù)學(xué)類的任務(wù)上,開啟自動(dòng)思考模式下的模型得分提升高達(dá) 20 分左右。官方表示,在部分榜單中,即使模型沒有開啟思考模式,受益于更優(yōu)的推理形態(tài),性能也有小幅上漲。
快手技術(shù)表示,Kwaipilot 未來將基于 preview 版本模型,進(jìn)一步增強(qiáng)推理能力,支持更完善的思考中工具使用能力,也會(huì)將全部技術(shù)細(xì)節(jié)、訓(xùn)練方法開源。附模型開源地址:
https://huggingface.co/Kwaipilot/KwaiCoder-AutoThink-preview
本文鏈接:http://www.www897cc.com/showinfo-45-13494-0.htmlDeepSeek-V3 & R1 合體:快手開源 "Auto Think " 大模型,可根據(jù)問題自動(dòng)調(diào)節(jié)思考深度
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: Mac 版 ChatGPT 變身生產(chǎn)力神器:AI 錄音 + 云文件洞察,打造團(tuán)隊(duì)協(xié)作最佳助手
下一篇: 韓國(guó)總統(tǒng)李在明承諾 100 萬億韓元 AI 投資計(jì)劃,大力擴(kuò)展基礎(chǔ)設(shè)施建設(shè)