4 月 17 日消息,國(guó)內(nèi) AI 初創(chuàng)企業(yè)MiniMax 稀宇科技今日正式推出MoE 混合專(zhuān)家模型架構(gòu)的 abab 6.5 系列模型,核心能力開(kāi)始接近GPT-4、 Claude-3、 Gemini-1.5。
abab 6.5 系列包含兩個(gè)模型:
abab 6.5:包含萬(wàn)億參數(shù),支持 200k tokens 的上下文長(zhǎng)度;
abab 6.5s:與 abab 6.5 使用了同樣的訓(xùn)練技術(shù)和數(shù)據(jù),但是更高效,支持 200k tokens 的上下文長(zhǎng)度,可以 1 秒內(nèi)處理近 3 萬(wàn)字的文本。
自一月發(fā)布國(guó)內(nèi)首個(gè)基于 MoE 架構(gòu)的 abab 6 模型后,MiniMax 通過(guò)改進(jìn)模型架構(gòu),重構(gòu)數(shù)據(jù) pipeline,訓(xùn)練算法及并行訓(xùn)練策略優(yōu)化等,在加速 Scaling Laws 過(guò)程上取得階段性成果。
附abab 6.5 系列模型測(cè)試結(jié)果如下:
官方在 200k token 內(nèi)進(jìn)行了業(yè)界常用的“大海撈針”測(cè)試,即在很長(zhǎng)的文本中放入一個(gè)和該文本無(wú)關(guān)的句子(針),然后通過(guò)自然語(yǔ)言提問(wèn)模型,看模型是否準(zhǔn)確將這個(gè)針回答出來(lái)。在 891 次測(cè)試中,abab 6.5 均能正確回答。
abab 6.5 與 abab 6.5s 模型將滾動(dòng)更新至 MiniMax 旗下產(chǎn)品,包括海螺 AI 與 MiniMax 開(kāi)放平臺(tái)。
本文鏈接:http://www.www897cc.com/showinfo-45-4085-0.htmlMiniMax 稀宇科技發(fā)布萬(wàn)億參數(shù) MoE 模型 abab 6.5,核心能力接近 GPT-4
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: Chrome 瀏覽器桌面版地址欄即將整合聊天機(jī)器人 Gemini
下一篇: 昆侖萬(wàn)維:中國(guó)首個(gè)音樂(lè) SOTA 模型天工 SkyMusic 音樂(lè)大模型開(kāi)啟公測(cè)