Hugging Face 09月25日
书生·万象InternVL3.5开源
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

上海AI实验室开源发布书生·万象InternVL3.5多模态大模型,基于级联式强化学习、动态视觉分辨率路由与解耦部署架构,实现推理能力、部署效率与通用能力的全面升级。InternVL3.5在多项任务中超越GPT-5等主流模型,并在GUI智能体、具身智能体、SVG图形理解与生成等任务中取得显著提升。

🔍InternVL3.5开源多模态大模型,突破推理、部署与通用能力,超越GPT-5等主流模型,引领多模态AI发展。

🚀级联式强化学习框架(Cascade RL),实现离线预热-在线精调,提升推理能力,效率更高。

💡动态视觉分辨率路由(ViR)与解耦部署框架(DvD),优化视觉模块效率,响应速度提升约4倍。

🤖强化GUI智能体、具身智能体、SVG图形理解与生成等能力,推动模型从理解到行动的跨越。

🌐覆盖GUI交互、具身空间推理和矢量图形处理等多个关键场景,在数字办公、具身智能、AI for Science等领域展现巨大潜力。

书生Intern 2025-09-01 18:02 法国

开源多模态大模型书生·万象3.5发布

通往通用人工智能(AGI)的探索,不仅是技术的突破,更关乎体验的革新。多模态大模型通过融合视觉与语言等多维信息,让AI能够像人一样理解世界、解决问题,为用户带来更流畅、更可信赖的交互体验。在多模态大模型领域,如何平衡复杂任务推理能力、实时部署效率与跨场景适配性,一直是行业落地应用的关键。

基于“通专融合”技术路线,上海人工智能实验室(上海AI实验室)于2025年7月发布关键科学任务性能超越Grok4的科学多模态大模型Intern-S1,8月26日书生大模型体系中的书生·万象多模态大模型也迎来重磅升级。此次实验室开源发布了书生·万象 InternVL3.5,通过创新的级联式强化学习、动态视觉分辨率路由与解耦部署架构,实现推理能力、部署效率与通用能力的全面升级。InternVL3.5在从10亿到2410亿参数的全量级版本中均刷新开源模型性能标杆,在通用多模态感知、多模态推理、文本能力等各种任务均达到领先水平,同时在图形用户界面(GUI)智能体、具身空间感知、矢量图像理解与生成等多种特色任务上取得了显著的性能提升。

技术报告链接:

https://huggingface.co/papers/2508.18265

代码开源/模型使用方法:

https://github.com/OpenGVLab/InternVL

模型地址:

https://huggingface.co/OpenGVLab/InternVL3_5-241B-A28B

在线体验链接:

https://chat.intern-ai.org.cn/

探索级联式强化学习,解锁稳定、有效、可扩展的后训练框架

传统强化学习在多模态模型中常面临“效率低”或“性能上限低”的两难——离线强化学习训练快但推理能力弱,在线强化学习效果好但计算成本高。InternVL3.5创新提出级联式强化学习(Cascade RL)框架,通过“离线预热-在线精调”两阶段流程,实现粗到精的渐进式推理能力提升。离线强化学习阶段采用混合偏好优化(MPO)算法快速让模型达到基础推理水平,为后续训练提供高质量输出样本;后续的在线强化学习阶段则基于GSPO算法,以模型自身生成的样本为基础,动态调整输出分布,无需依赖外部参考模型,在MoE大模型中训练稳定性显著提升。对比单阶段强化学习,级联式强化学习仅通过50%的GPU训练时间即可达到更优的综合性能,同时在1B到241B全参数规模中均实现稳定性能增益,例如2B模型推理得分从38.5分提升至50.7分,241B-A28B模型从60.4分提升至66.9分。

创新多模态加速部署框架,实现实际部署场景吞吐效率4倍提升

多模态模型的视觉模块往往因高分辨率输入而成为效率瓶颈。InternVL3.5通过“动态压缩 + 硬件适配”的双重优化实现突破:一方面,引入动态视觉分辨率路由(ViR),基于视觉一致性学习(ViCO)为每个图像切片动态选择 1/4 或 1/16 的压缩率,在语义密集区域(如文字、图表)保留高分辨率,在背景区域自适应压缩,从而减少 50% 视觉 tokens,在 DocVQA、OCRBench 等高分辨率任务上几乎无损性能的同时显著提升推理速度;另一方面,提出 DvD 解耦部署方案,将视觉编码器(ViT+MLP)与语言模型(LLM)分置于不同 GPU,并结合 BF16 精度特征传输与异步流水线设计,使视觉计算与语言生成能够并行执行。在 896 高分辨率输入下,38B 模型的吞吐量提升达 4.05 倍,有效解决了传统串行部署的资源阻塞问题。

实现全场景能力提升与拓展,推动模型从“理解”到“行动”的跨越

InternVL3.5在通用多模态、多模态推理、文本能力等方面实现显著提升,并强化了面向实际应用的“智能体”与“文本思考”能力,覆盖GUI交互、具身空间推理和矢量图形处理等多个关键场景。具体而言,在图像、视频问答等多模态感知任务中,241B-A28B模型以74.1的平均得分超越现有开源模型,并与商业模型GPT-5(74.0)接近;在多模态推理方面,241B-A28B模型在MMMU基准获得77.7分,较前代提升超5个百分点,位列开源榜首,数学与逻辑推理也达到高水平;在表现文本能力的AIME、GPQA及IFEval等多个基准中,模型可以取得85.3的均分,处于开源领先。GUI交互部分,模型在ScreenSpot-v2元素定位任务以92.9分超越同类模型,同时支持Windows/Ubuntu自动化操作,并在WindowsAgentArena任务大幅领先Claude-3.7-Sonnet;在具身智能体测试当中,模型表现出理解物理空间关系并规划导航路径的能力,在VSI-Bench以69.5分超过Gemini-2.5-Pro;模型对于矢量图形的理解与生成也展现了优秀的能力,在SGP-Bench以70.7分刷新开源纪录,生成任务FID值也优于GPT-4o和Claude-3.7-Sonnet,能够有效应用于网页图形生成与工程图纸解析等专业场景。

能力展示

GUI智能体

InternVL3.5可跨Windows、Mac、Ubuntu、Android等多个平台,精确识别界面元素并自主执行鼠标、键盘操作,实现恢复已删除文件、导出PDF、邮件添加附件等任务的自动化。

具身空间推理

InternVL3.5具备更强的grounding能力,可以泛化到全新的复杂大量小样本的具身场景,配合抓取算法,支持可泛化的长程物体抓取操作。

(视频由录制视角记录)

矢量图生成与编辑

基于InternVL3.5 8B 专有SVG模型,用户能够在发出自然语言指令后,让模型生成或编辑SVG 矢量图形。

1、根据文字指令生成矢量图文件

指令示例:

一个带有黄色和橙色三角形切面的几何钻石形状。

一个带有扳手和锤子图标的红色工具箱。

一个带有深色底座和屏幕的蓝色电脑显示器图标。

效果:

2、根据文字指令编辑矢量图文件

指令示例:

在番茄的脸上涂一滴眼泪。

输入:

输出:

通用推理能力

从数学物理考研题到国考图形推理逻辑测试,再到桌游策略推演,InternVL3.5以领先的通用推理能力实现多场景认知迁移。

示例1:数学物理考研题

问题

解答这道题

回答

(中间思考过程略)

示例2:国考图形推理逻辑测试

问题

上面大方框中的纸折叠成一个正方形盒子之后,形成的箭头的形状,应该是下面A B C D中的哪个

回答

(中间思考过程略)

示例3:桌游策略推演

问题

这是什么桌游?给出判断依据,分析场上局势,给出下一步的行动建议

回答

(中间思考过程略)

结语

书生·万象多模态大模型InternVL,作为实验室“通专融合”的书生大模型体系的重要组成部分,首创渐进式对齐技术,探索高效Scaling Law,较经典方法节约80%算力成本。自2024年1月 InternVL 1.0发布至今,书生·万象多模态大模型全网全系列下载量已经突破2300万次,凸显了在学术界与产业界的广泛影响力与认可度。从科研创新到产业落地,InternVL正通过“更强推理、更快速度、更泛应用”的技术突破,为多模态AI注入新动能——在数字办公中,GUI智能体可自动化处理 Excel 数据录入与公式计算、PPT 版式设计与内容排版等软件操作;在具身智能场景中,通过视觉感知与动作规划,辅助机器人完成家居环境、工业场景中的物理交互任务;在 AI for Science 场景中,凭借多模态协同推理能力,结合实验数据图表与领域知识,协助科研人员进行分子结构解析、材料性能预测等复杂推导。未来,随着模型能力的进一步迭代与开源生态的完善,书生·万象多模态大模型InternVL将持续推动多模态技术从“实验室”走向“生产线”,为人工智能通用化、低成本落地提供核心基座,为我国“人工智能+”行动提供坚实支撑。

本文由 Hugging Face 中文社区内容共建项目提供,稿件由社区成员投稿,经授权发布于 Hugging Face 公众号。文章内容不代表官方立场,文中介绍的产品和服务等均不构成投资建议。了解更多请关注公众号

如果你有与开源 AI、Hugging Face 相关的技术和实践分享内容,以及最新的开源 AI 项目发布,希望通过我们分享给更多 AI 从业者和开发者们,请通过下面的链接投稿与我们取得联系:

https://hf.link/tougao

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

书生·万象 InternVL3.5 开源大模型 多模态AI 人工智能
相关文章