9 月 3 日消息,上海人工智能實驗室(上海 AI 實驗室)今日宣布開源通用多模態大模型書生?萬象 3.5(InternVL3.5),其推理能力、部署效率與通用能力全面升級。

InternVL3.5 本次開源有 9 種尺寸的模型,參數涵蓋 10 億-2410 億,可滿足各場景需求。其中,旗艦模型 InternVL3.5-241B-A28B 在多學科推理基準 MMMU 中獲 77.7 分,為開源模型中最高分;多模態通用感知能力超越 GPT-5,文本能力領跑主流開源多模態大模型。

與 InternVL3.0 相比,InternVL3.5 在圖形用戶界面(GUI)智能體、具身空間感知、矢量圖像理解與生成等多種特色任務上實現顯著提升。
本次升級,上海 AI 實驗室研究團隊重點強化了 InternVL3.5 面向實際應用的智能體與文本思考能力,在 GUI 交互、具身空間推理和矢量圖形處理等多個關鍵場景實現從“理解”到“行動”的跨越,并得到多項評測驗證。
GUI 交互部分,InternVL3.5 在 ScreenSpot-v2 元素定位任務以 92.9 分超越同類模型,同時支持 Windows / Ubuntu 自動化操作,并在 WindowsAgentArena 任務大幅領先 Claude-3.7-Sonnet。
在具身智能體測試中,InternVL3.5 表現出理解物理空間關系并規劃導航路徑的能力,在 VSI-Bench 以 69.5 分超過 Gemini-2.5-Pro。
在矢量圖形理解與生成方面,InternVL3.5 在 SGP-Bench 以 70.7 分刷新開源紀錄,生成任務 FID 值也優于 GPT-4o 和 Claude-3.7-Sonnet。
具體來看,InternVL3.5 可跨 Windows、Mac、Ubuntu、Android 等多個平臺,識別界面元素并自主執行鼠標、鍵盤操作,實現恢復已刪除文件、導出 PDF、郵件添加附件等任務的自動化。

InternVL3.5 具備更強的 grounding 能力,可以泛化到全新的復雜大量小樣本的具身場景,配合抓取算法,支持可泛化的長程物體抓取操作,助力機器人更高效地完成物品識別、路徑規劃與物理交互。

作為上海 AI 實驗室書生大模型體系的重要組成部分,InternVL 聚焦視覺模型技術,InternVL 全系列全網下載量已突破 2300 萬次。
附開源地址:
技術報告鏈接:https://huggingface.co/papers/2508.18265
代碼開源 / 模型使用方法:https://github.com/OpenGVLab/InternVL
模型地址:https://huggingface.co/OpenGVLab/InternVL3_5-241B-A28B
在線體驗鏈接:https://chat.intern-ai.org.cn/
本文鏈接:http://www.www897cc.com/showinfo-45-27340-0.html多模態通用感知能力超越 GPT-5,上海 AI 實驗室開源書生?萬象 3.5 大模型
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com