4 月 17 日消息,據上海人工智能實驗室官方公眾號,4 月 16 日,上海人工智能實驗室(上海 AI 實驗室)升級并開源了通用多模態大模型書生?萬象 3.0(InternVL3)。
官方介紹,通過采用創新的多模態預訓練和后訓練方法,InternVL3 多模態基礎能力全面提升,在專家級基準測試、多模態性能全面測試中,10 億~780 億參數的全量級版本在開源模型中性能均位列第一,同時大幅提升了圖形用戶界面(GUI)智能體、建筑場景圖紙理解、空間感知推理以及通識學科推理等方面的能力。
據介紹,該團隊提出了一種創新的原生多模態預訓練方法,與傳統的先優化大語言模型再添加視覺能力的方法不同,這種方法在模型的預訓練階段將文本數據與多模態數據無縫結合,讓模型能夠同時學習語言和視覺,從而能夠同時處理文本和多模態輸入。
除了可以處理通用的多模態任務之外,InternVL3 還拓展了多方面的多模態能力,如圖形用戶界面(GUI)智能體、建筑場景圖紙理解、空間感知推理、通識學科推理等。
據介紹,InternVL3 可作為 GUI 智能體,遵循指令去操作電腦或者手機上的專業軟件。
匯總有關鏈接如下:
技術報告鏈接:https://huggingface.co/ papers / 2504.10479
代碼開源 / 模型使用方法:https://github.com/ OpenGVLab / InternVL
模型地址:https://huggingface.co/ OpenGVLab / InternVL3-78B
公測版本:https://chat.intern-ai.org.cn/
本文鏈接:http://www.www897cc.com/showinfo-45-12388-0.html上海人工智能實驗室開源多模態大模型“書生?萬象 3.0”:能同時處理文本和多模態輸入
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com