8 月 6 日消息,小紅書 hi lab 研發(fā)并開(kāi)源的首個(gè)多模態(tài)大模型 dots.vlm1 今日正式發(fā)布,借助一個(gè)從零訓(xùn)練的 12 億參數(shù)視覺(jué)編碼器以及基于 DeepSeek V3 LLM 構(gòu)建。
小紅書 hi lab 表示,dots.vlm1 在大部分多模態(tài)評(píng)測(cè)集上接近閉源 SoTA 模型的水平,并在文本能力和主流文本模型相當(dāng)。
NaViT 視覺(jué)編碼器:沒(méi)有基于成熟視覺(jué)編碼器進(jìn)行微調(diào),完全從零開(kāi)始訓(xùn)練,原生支持動(dòng)態(tài)分辨率。同時(shí)在文本監(jiān)督上增加純視覺(jué)監(jiān)督,提升感知能力上限。此外,訓(xùn)練數(shù)據(jù)上在傳統(tǒng)的 Image Caption 數(shù)據(jù)上還引入大量結(jié)構(gòu)化圖片進(jìn)行原生訓(xùn)練,提升 VLM 模型的感知能力(例如各類 OCR 能力)。
多模態(tài)訓(xùn)練數(shù)據(jù):在傳統(tǒng)思路上,額外引入多種合成數(shù)據(jù)思路,覆蓋多樣的圖片類型(例如表格 / Chart / 文檔 / Graphics 等)及其描述(例如 Alt Text / Dense Caption / Grounding 等);同時(shí),利用多模態(tài)大模型來(lái)重寫圖文交錯(cuò)網(wǎng)頁(yè)數(shù)據(jù),顯著提升訓(xùn)練數(shù)據(jù)質(zhì)量;
通過(guò)大規(guī)模預(yù)訓(xùn)練與精細(xì)化后訓(xùn)練調(diào)優(yōu),dots.vlm1 在視覺(jué)感知與推理方面達(dá)到了接近 SOTA 的表現(xiàn),為開(kāi)源視覺(jué)語(yǔ)言模型樹立了新的性能上限,同時(shí)在純文本任務(wù)中仍保持一定競(jìng)爭(zhēng)力。
在主要的視覺(jué)評(píng)測(cè)集上,dots.vlm1 的整體表現(xiàn)已接近當(dāng)前領(lǐng)先模型 Gemini 2.5 Pro 與 Seed-VL1.5 thinking,尤其在 MMMU / MathVision / OCR Reasoning 等多個(gè)基準(zhǔn)測(cè)試中取得了相當(dāng)競(jìng)爭(zhēng)力的結(jié)果,顯示出較強(qiáng)的圖文理解與推理能力。
在典型的文本推理任務(wù)(如 AIME、GPQA、LiveCodeBench)上,dots.vlm1 的表現(xiàn)大致相當(dāng)于 DeepSeek-R1-0528,在數(shù)學(xué)和代碼能力上已具備一定的通用性,但在 GPQA 等更多樣的推理任務(wù)上仍存在差距。
總體來(lái)看,dots.vlm1 在視覺(jué)多模態(tài)能力方面已接近 SOTA 水平,在文本推理方面達(dá)到了主流模型的性能。然而,在部分細(xì)分任務(wù)上仍與最優(yōu)結(jié)果存在一定距離,需要在架構(gòu)設(shè)計(jì)與訓(xùn)練數(shù)據(jù)上進(jìn)一步優(yōu)化。
復(fù)雜圖表推理樣例:
STEM 解題樣例:
長(zhǎng)尾識(shí)別解題樣例:
視覺(jué)推理樣例:
附 dots.vlm1 開(kāi)源地址:
https://github.com/rednote-hilab/dots.vlm1
本文鏈接:http://www.www897cc.com/showinfo-45-25984-0.html小紅書首個(gè)多模態(tài) AI 大模型 dots.vlm1 發(fā)布并開(kāi)源,基于 DeepSeek V3 LLM
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 摩爾線程:MUSA 成功適配 llama.cpp,直通全球 AI 生態(tài)圈
下一篇: 谷歌為全美大學(xué)生送福利:未來(lái)三年投入 10 億美元提供 AI 培訓(xùn)及訂閱服務(wù)