6 月 4 日消息,快手 Kwaipilot 團隊近日開源了 KwaiCoder-AutoThink-preview 自動思考大模型,針對近期深度思考大模型存在的“過度思考”問題進行了深入研究。團隊提出了一種全新的自動思考模型訓練范式,同時基于傳統強化學習算法(GRPO),提出了帶有過程監督的強化學習方法 Step-SRPO,以進一步提升模型在復雜任務中的表現。
據介紹,該模型融合了“思考”和“非思考”能力,號稱“DeepSeek-V3 & R1 合體”,具備根據問題難度自動切換思考形態的能力。通過進行這種思考形態訓練,模型在多個“思考”和“非思考”評測榜單上均實現了性能提升,其中在部分代碼和數學類的任務上,開啟自動思考模式下的模型得分提升高達 20 分左右。官方表示,在部分榜單中,即使模型沒有開啟思考模式,受益于更優的推理形態,性能也有小幅上漲。
快手技術表示,Kwaipilot 未來將基于 preview 版本模型,進一步增強推理能力,支持更完善的思考中工具使用能力,也會將全部技術細節、訓練方法開源。附模型開源地址:
https://huggingface.co/Kwaipilot/KwaiCoder-AutoThink-preview
本文鏈接:http://www.www897cc.com/showinfo-45-13494-0.htmlDeepSeek-V3 & R1 合體:快手開源 "Auto Think " 大模型,可根據問題自動調節思考深度
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com