6 月 27 日消息,騰訊混元大模型家族今日宣布迎來新成員 —— 混元-A13B 模型發布并開源,號稱是“業界首個 13B 級別的 MoE 開源混合推理模型”。
混元-A13B 作為基于專家混合(MoE)架構的大模型,總參數 800 億、激活參數 130 億,號稱“在效果比肩頂尖開源模型的同時,大幅降低推理延遲與計算開銷”。
騰訊混元表示,這對個人開發者和中小企業來說,無疑是個好消息,極端條件下僅需 1 張中低端 GPU 卡即可部署。用戶可以在 Github、HuggingFace 等技術社區下載使用,模型 API 已在騰訊云官網上線。
混元-A13B 模型通過 MoE 架構,為每個輸入選擇性地激活相關模型組件,號稱與同等規模的密集模型相比“又快又省”,而且為個人開發者和中小企業提供了一個“可擴展且高效的替代方案”。
預訓練中,模型用了 20 萬億高質量網絡詞元語料庫,提升了模型推理能力的上限;完善了 MoE 架構的 Scaling Law(即規模定律)理論體系,為 MoE 架構設計提供了可量化的工程化指導,提升了模型預訓練效果。
用戶可以按需選擇思考模式,快思考模式提供簡潔、高效的輸出,適合追求速度和最小計算開銷的簡單任務;慢思考模式涉及更深、更全面的推理步驟。這優化了計算資源分配,兼顧效率和準確性。
混元還開源了兩個新數據集,以填補行業內相關評估標準的空白。其中,ArtifactsBench 主要用于代碼評估,構建了一個包含 1825 個任務的新基準;C3-Bench 針對 Agent 場景模型評估,設計了 1024 條測試數據,以發現模型能力的不足。
從具體效果來看,數學推理方面,例如輸入“9.11 和 9.9 誰大”,模型可準確完成小數比較,并展現分步解析能力。
對于時下熱門的智能體(Agent)應用,模型可調用工具,生成出行攻略、數據文件分析等復雜指令響應。
再看數據和效果。在多個公開數據測試集上,模型在數學、科學和邏輯推理任務上表現出“領先效果”。
附開源地址:
https://github.com/Tencent-Hunyuan/Hunyuan-A13B
本文鏈接:http://www.www897cc.com/showinfo-45-14212-0.html業界首個:騰訊混元-A13B 模型發布并開源,極端條件 1 張中低端 GPU 卡即可部署
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com