近日,國內社交內容平臺小紅書在人工智能領域邁出了重要一步,宣布開源其首個大型語言模型dots.llm1。這一舉動不僅為開源社區增添了一名重量級的新成員,也彰顯了小紅書在技術創新上的雄厚實力。
dots.llm1是一個擁有1420億參數的混合專家(MoE)模型,但在實際應用中,它僅需激活140億參數,便能展現出與阿里Qwen3-32B模型相近的性能。這一特性使得dots.llm1在保持高效能的同時,也大大降低了運算成本。在中文任務上的表現尤為亮眼,dots.llm1在C-eval評測中取得了92.2分的高分,超越了包括DeepSeek-V3在內的眾多模型。
技術報告顯示,小紅書團隊在數據處理方面做出了多項創新。他們提出了一個可擴展且細粒度的三階段數據處理框架,旨在提升數據的規模、質量和多樣性。團隊還開發了Web雜亂清除模型和類別平衡技術,進一步確保了數據的高質量和多樣性。這些努力使得dots.llm1在預訓練階段就能接觸到豐富且高質量的數據,從而提升了模型的性能。
在模型架構方面,dots.llm1采用了僅限解碼器的Transformer架構,其中每一層包含一個注意力層和一個前饋網絡(FFN)。與傳統的密集模型不同,dots.llm1的FFN被專家混合(MoE)層所替代。這種架構使得dots.llm1能夠在保持經濟成本的同時,訓練出功能強大的模型。在注意力層方面,dots.llm1使用了普通的多頭注意力機制,而在MoE層則遵循了DeepSeek和Qwen的做法,用包含共享和獨立專家的MoE層替換了FFN。
為了全面評估dots.llm1的性能,小紅書團隊在中文和英文上進行了預訓練,并評估了它在多個領域基準測試中的表現。結果顯示,dots.llm1在大多數領域中表現出了與Qwen2.5-72B相當的性能。特別是在語言理解任務上,dots.llm1在中文理解基準測試中取得了較高性能,這主要得益于其高效的數據處理管道。在知識任務、代碼和數學領域,dots.llm1也展現出了穩健的表現。
dots.llm1在預訓練完成后還經過了監督微調階段。小紅書團隊基于開源數據和內部注釋數據收集了大約400k個指令調優實例,并對dots.llm1進行了兩個階段的微調。這些努力進一步提升了dots.llm1在特定領域(如數學和編碼)的能力。
通過此次開源,小紅書不僅為人工智能領域貢獻了一個強大的大型語言模型,也展示了其在數據處理和模型架構方面的創新實力。dots.llm1的成功推出,無疑將推動大型語言模型的發展和應用,為人工智能技術的進步注入新的活力。
本文鏈接:http://www.www897cc.com/showinfo-45-13632-0.html小紅書首推大模型dots.llm1,中文性能力壓DeepSeek-V3
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com