4 月 17 日消息,國內 AI 初創企業MiniMax 稀宇科技今日正式推出MoE 混合專家模型架構的 abab 6.5 系列模型,核心能力開始接近GPT-4、 Claude-3、 Gemini-1.5。
abab 6.5 系列包含兩個模型:
abab 6.5:包含萬億參數,支持 200k tokens 的上下文長度;
abab 6.5s:與 abab 6.5 使用了同樣的訓練技術和數據,但是更高效,支持 200k tokens 的上下文長度,可以 1 秒內處理近 3 萬字的文本。
自一月發布國內首個基于 MoE 架構的 abab 6 模型后,MiniMax 通過改進模型架構,重構數據 pipeline,訓練算法及并行訓練策略優化等,在加速 Scaling Laws 過程上取得階段性成果。
附abab 6.5 系列模型測試結果如下:
官方在 200k token 內進行了業界常用的“大海撈針”測試,即在很長的文本中放入一個和該文本無關的句子(針),然后通過自然語言提問模型,看模型是否準確將這個針回答出來。在 891 次測試中,abab 6.5 均能正確回答。
abab 6.5 與 abab 6.5s 模型將滾動更新至 MiniMax 旗下產品,包括海螺 AI 與 MiniMax 開放平臺。
本文鏈接:http://www.www897cc.com/showinfo-45-4085-0.htmlMiniMax 稀宇科技發布萬億參數 MoE 模型 abab 6.5,核心能力接近 GPT-4
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com