日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

月之暗面 Kimi 開源 Moonlight:30 億 160 億參數混合專家模型

來源: 責編: 時間:2025-02-25 11:40:32 94觀看
導讀 2 月 24 日消息,月之暗面 Kimi 昨日發布了“Muon 可擴展用于 LLM 訓練”的新技術報告,并宣布推出“Moonlight”:一個在 Muon 上訓練的 30 億 / 160 億參數混合專家模型(MoE)。使用了 5.7 萬億個 token,在更低的浮點

2 月 24 日消息,月之暗面 Kimi 昨日發布了“Muon 可擴展用于 LLM 訓練”的新技術報告,并宣布推出“Moonlight”:一個在 Muon 上訓練的 30 億 / 160 億參數混合專家模型(MoE)。使用了 5.7 萬億個 token,在更低的浮點運算次數(FLOPs)下實現了更好的性能,從而提升了帕累托效率邊界。BGH28資訊網——每日最新資訊28at.com

BGH28資訊網——每日最新資訊28at.com

月之暗面稱,團隊發現 Muon 優化器可通過添加權重衰減、仔細調整每個參數的更新幅度等技術進行擴展,并具備如下亮點:BGH28資訊網——每日最新資訊28at.com

這些技術使得 Muon 能夠在大規模訓練中開箱即用,無需進行超參數調優。擴展法則實驗表明,與計算最優訓練的 AdamW 相比,Muon 實現了約 2 倍的計算效率。BGH28資訊網——每日最新資訊28at.com

本次論文所使用的模型為 Moonlight-16B-A3B,總參數量為 15.29B,激活參數為 2.24B,其使用 Muon 優化器,在 5.7T Tokens 的訓練數據下獲得上述成績。BGH28資訊網——每日最新資訊28at.com

我們的模型不僅突破了當前的 Pareto 前沿,還在訓練所需的 FLOP 數大幅減少的情況下,達到了比以往模型更優的性能。BGH28資訊網——每日最新資訊28at.com

我們開源了一個分布式版本的 Muon 實現,它在內存使用和通信效率上都進行了優化。同時,我們也發布了預訓練模型、經過指令調優的模型以及中間訓練檢查點,旨在為未來的研究提供支持。BGH28資訊網——每日最新資訊28at.com

附有關鏈接如下:BGH28資訊網——每日最新資訊28at.com

GitHub:點此前往BGH28資訊網——每日最新資訊28at.com

Hugging Face :點此前往BGH28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-11075-0.html月之暗面 Kimi 開源 Moonlight:30 億 160 億參數混合專家模型

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 超 2000 名文化界人士呼吁英國政府:不要將我們的作品白送給 AI 富豪

下一篇: 國產 AI 大模型加速迭代,廠商邁向開源、集聚化

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 吉木乃县| 乳山市| 麻阳| 鄂州市| 都昌县| 仁怀市| 浏阳市| 永福县| 福贡县| 巨鹿县| 大厂| 罗平县| 锦州市| 巨野县| 岗巴县| 中卫市| 屏东市| 溧水县| 绍兴县| 临猗县| 盐山县| 乌海市| 张家界市| 洛浦县| 丘北县| 湘阴县| 麦盖提县| 寻甸| 辰溪县| 康乐县| 光泽县| 花垣县| 武清区| 台中县| 任丘市| 长宁县| 台州市| 油尖旺区| 林芝县| 年辖:市辖区| 会东县|