IT之家 10月15日 13:01
阿里通义开源Qwen3-VL系列新模型,视觉理解能力大幅提升
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里通义近期官宣开源了其Qwen3-VL系列的两款新成员:Dense架构的Qwen3-VL-8B和Qwen3-VL-4B模型。这两款密集视觉理解模型在显存占用上更低,同时继承了Qwen3-VL的全部能力,并提供Instruct和Thinking两个版本。Qwen3-VL-8B在STEM、VQA、OCR、视频理解和Agent任务等公开评测中表现出色,甚至能媲美上一代大型模型。而4B版本则在端侧设备上展现出更高的性价比。值得关注的是,新模型通过架构创新和技术优化,有效解决了小模型常见的“跷跷板”问题,实现了视觉精准与文本稳健的协同突破,在保持文本理解能力的同时,显著增强了多模态感知和视觉理解能力。

🌟 **Qwen3-VL系列再添新成员**:阿里通义正式开源了Dense架构的Qwen3-VL-8B和Qwen3-VL-4B模型。这两款模型在保持原有Qwen3-VL全部能力的基础上,采用了更低的显存占用设计,并为Instruct和Thinking两种应用场景提供了优化版本。

🚀 **性能优异,媲美大模型**:Qwen3-VL-8B在STEM、VQA、OCR、视频理解以及Agent等多种公开评测任务中表现卓越,不仅超越了Gemini 2.5 Flash Lite和GPT-5 Nano等模型,甚至可以与上一代超大尺寸模型Qwen2.5-VL-72B相媲美,展现了强大的视觉理解能力。

💡 **端侧高性价比之选**:Qwen3-VL-4B版本特别适合在智能终端上部署,以其更高的性价比满足AI视觉理解的需求。其紧凑的尺寸和高效的性能使其成为边缘计算场景下的理想选择。

⚖️ **突破“跷跷板”效应,实现能力协同**:新模型通过创新的架构和技术优化,成功解决了小模型在提升视觉能力时牺牲文本性能,或反之亦然的“跷跷板”问题。它们在增强多模态感知和视觉理解能力的同时,依然保持了强大的文本理解能力,实现了视觉与文本能力的平衡发展。

IT之家 10 月 15 日消息,阿里通义今日官宣 Qwen3-VL 系列再添新成员 ——Dense 架构的 Qwen3-VL-8B、Qwen3-VL-4B 模型开源上线。

Qwen3-VL-4B / 8B 是密集(Dense)视觉理解模型,显存占用更低,拥有 Qwen3-VL 的全部能力项,每个尺寸都有 Instruct 和 Thinking 两大版本。

Qwen3-VL-8B 在 STEM、VQA、OCR、视频理解和 Agent 任务等公开评测上表现优异,不仅超越 Gemini 2.5 Flash Lite 和 GPT-5 Nano,甚至可以媲美上一代超大尺寸模型 Qwen2.5-VL-72B

而 4B 版本则在端侧展现更高的性价比,适合在需要 AI 视觉理解的智能终端部署。

值得一提的是,这两款视觉理解模型实现了「视觉精准」与「文本稳健」的协同突破:针对小模型常见的“跷跷板”问题(提升视觉能力往往牺牲文本性能,反之亦然),阿里通过架构创新和技术优化,让模型在保持文本理解能力的同时,增强多模态感知与视觉理解能力,小身板里塞进了更强的视觉和文本能力

新模型现已上线魔搭社区、Hugging Face,也提供 FP8 版本,IT之家附开源地址如下:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

阿里通义 Qwen3-VL 开源模型 视觉理解 AI Alibaba Tongyi Open Source Models Visual Understanding AI
相关文章