日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

月之暗面 Kimi 開源 Moonlight:30 億 160 億參數混合專家模型

來源: 責編: 時間:2025-02-25 11:40:32 73觀看
導讀 2 月 24 日消息,月之暗面 Kimi 昨日發布了“Muon 可擴展用于 LLM 訓練”的新技術報告,并宣布推出“Moonlight”:一個在 Muon 上訓練的 30 億 / 160 億參數混合專家模型(MoE)。使用了 5.7 萬億個 token,在更低的浮點

2 月 24 日消息,月之暗面 Kimi 昨日發布了“Muon 可擴展用于 LLM 訓練”的新技術報告,并宣布推出“Moonlight”:一個在 Muon 上訓練的 30 億 / 160 億參數混合專家模型(MoE)。使用了 5.7 萬億個 token,在更低的浮點運算次數(FLOPs)下實現了更好的性能,從而提升了帕累托效率邊界。hUE28資訊網——每日最新資訊28at.com

hUE28資訊網——每日最新資訊28at.com

月之暗面稱,團隊發現 Muon 優化器可通過添加權重衰減、仔細調整每個參數的更新幅度等技術進行擴展,并具備如下亮點:hUE28資訊網——每日最新資訊28at.com

這些技術使得 Muon 能夠在大規模訓練中開箱即用,無需進行超參數調優。擴展法則實驗表明,與計算最優訓練的 AdamW 相比,Muon 實現了約 2 倍的計算效率。hUE28資訊網——每日最新資訊28at.com

本次論文所使用的模型為 Moonlight-16B-A3B,總參數量為 15.29B,激活參數為 2.24B,其使用 Muon 優化器,在 5.7T Tokens 的訓練數據下獲得上述成績。hUE28資訊網——每日最新資訊28at.com

我們的模型不僅突破了當前的 Pareto 前沿,還在訓練所需的 FLOP 數大幅減少的情況下,達到了比以往模型更優的性能。hUE28資訊網——每日最新資訊28at.com

我們開源了一個分布式版本的 Muon 實現,它在內存使用和通信效率上都進行了優化。同時,我們也發布了預訓練模型、經過指令調優的模型以及中間訓練檢查點,旨在為未來的研究提供支持。hUE28資訊網——每日最新資訊28at.com

附有關鏈接如下:hUE28資訊網——每日最新資訊28at.com

GitHub:點此前往hUE28資訊網——每日最新資訊28at.com

Hugging Face :點此前往hUE28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-11075-0.html月之暗面 Kimi 開源 Moonlight:30 億 160 億參數混合專家模型

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 超 2000 名文化界人士呼吁英國政府:不要將我們的作品白送給 AI 富豪

下一篇: 國產 AI 大模型加速迭代,廠商邁向開源、集聚化

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 通州市| 乐东| 沙坪坝区| 韶山市| 五莲县| 鄱阳县| 洛扎县| 丹阳市| 平山县| 金沙县| 吴堡县| 安阳市| 库尔勒市| 景泰县| 定安县| 安平县| 临湘市| 边坝县| 河曲县| 凤凰县| 嘉义市| 星子县| 延长县| 西城区| 河曲县| 乳源| 南陵县| 乐清市| 大方县| 涟源市| 南和县| 定兴县| 江油市| 大足县| 古交市| 信阳市| 棋牌| 临沧市| 驻马店市| 茌平县| 应用必备|