通义 09月25日
模型核心能力拆解
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了通义实验室发布的6款模型和1个全新品牌的核心能力。Qwen MAX拥有强大的编码和工具调用能力,Qwen3-Omni实现全模态不降智,Qwen3-VL具备视觉理解能力,Qwen-Image-Edit-2509支持多图参考编辑,Qwen3-Coder可修复复杂项目代码,Wan2.5-Preview实现音画同步视频生成,通义百聆攻克企业级语音模型落地难题。

🔹 Qwen MAX:万亿参数大模型,Coding 与工具调用能力登顶国际榜单,理科推理能力在 AIME25 评测中斩获满分100分。

🔹 Qwen3-Omni:新一代原生全模态大模型,支持19种语言及方言输入、10种语言输出,可处理长达30分钟的会议录音或播客,精准输出纪要。

🔹 Qwen3-VL:Agent 和 Coding能力全面提升,支持2小时视频精确定位,OCR 语言从19种扩展至32种,生僻字、古籍、倾斜文本识别率显著提升。

🔹 Qwen-Image-Edit-2509:支持多图参考编辑,强化人脸、商品、文字ID一致性,并原生集成ControlNet,实现“改字不崩脸、换装不走样”的工业级稳定性。

🔹 Qwen3-Coder:256K上下文修复项目,TerminalBench分数大幅提升,支持跨文件、多语言的复杂项目,推理速度更快、Token消耗更少、安全性更高。

🔹 Wan2.5-Preview:音画同步视频生成,图像支持科学图表与艺术字,全面提升视频生成、图像生成、图像编辑三大核心能力。

🔹 通义百聆:企业级语音基座大模型,整合了领先的Fun-ASR语音识别大模型与Fun-CosyVoice语音合成大模型,致力于攻克复杂环境下的语音落地应用难题。

2025-09-24 11:47 浙江

模型核心能力拆解,建议收藏!

6款模型上新 + 1个全新品牌发布,覆盖文本、视觉、语音、视频、代码、图像全场景,这份超强清单,请收好:

🔹 Qwen MAX:万亿参数大模型,Coding 与工具调用能力登顶国际榜单;

🔹 Qwen3-Omni:新一代原生全模态大模型,真正实现“全模态不降智”;

🔹 Qwen3-VL:Agent 和 Coding能力全面提升,真正“看懂、理解并响应世界”;

🔹 Qwen-Image:再升级!真正实现“改字不崩脸、换装不走样”;

🔹 Qwen3-Coder:256K上下文修复项目,TerminalBench分数大幅提升;

🔹 Wan2.5-Preview:音画同步视频生成,图像支持科学图表与艺术字;

🔹 通义百聆:企业级语音基座大模型,攻克企业落地语音模型的“最后一公里”;

接下来,我们将对这些模型逐项拆解,带你了解各模型核心能力与关键升级。

Qwen MAX

万亿参数旗舰模型

Qwen3-Max 是一款参数规模超万亿的大模型,智能水平相比开源 235B 版本有显著提升。Coding 能力在 SWE-Bench Verified 评测中得分69.6 ,工具调用能力在 BFCL 和 TAU2 评测中达到国际前沿水平。理科推理能力方面,在 AIME25 评测中斩获满分100分。

快速了解

    Instruct:适用于代码生成、工具调用等即时交互任务; 

    Thinking:支持结合工具的并行推理与工具调用,Qwen3-Max推理能力创下新高,在 AIME25 和HMMT等国际权威数学评测中均斩获满分100 分。 

在 AIME25(数学推理)评测中得分 81.6,显著高于 Qwen3-235B-A22B 的 70.3 分;在 SWE-Bench Verified(代码生成)中得分为 69.6。在 SuperGPQA、LiveCodeBench、τ²-Bench 等任务上均优于 Qwen3-235B-A22B,展现更强的通用智能与编程能力。

 图1:Qwen3-Max 多个权威评测基准性能对比图 

Qwen3-Omni 

新一代全模态大模型

Qwen3-Omni 是通义全新发布的全模态大模型,支持 19 语言及方言输入、10 语言输出,可处理长达 30 分钟的会议录音或播客,精准输出纪要。

模型采用 Thinker-Talker MoE 架构,在支持音视频、图像等多模态能力的同时,文本智力不打折。原生支持 Function Call 与 MCP 协议,可无缝嵌入车机、智能音箱等语音助手系统,实现“打开座椅加热并导航到公司”这类复合指令的精准执行。闭源版提供 17 种拟人音色,每种音色支持 10 语种自然表达,满足全球化企业交互需求。

该版本在音频识别、语音生成、图像理解等任务上全面超越 Qwen2.5-Omni 与 GPT-4o。在 VoiceBench-CommonEval 上得分达 90.8,展现极强的语音理解与对话能力。 

 图2:在开闭源评测中 22 项达 SOTA 水平 

该版本在 AIME25、ZebraLogic 等文本推理任务上得分更高,语音生成(MiniMax-avg)达到 2.5803,优于 Qwen2.5-Omni 与 GPT-4o。同时,在 VoiceBench-CommonEval 上得分为 91.0,语音理解能力进一步提升,为车机、智能助手等高要求场景提供更强支持。

 图3:多项指标领先开源模型 

语种和方言(19种)

语音生成(10种)

语音翻译(54种)

其中,xx(任意语言)包含的语言有:中文、英语、韩语、日语、德语、法语、意大利语、西班牙语、葡萄牙语、印尼语、泰语、阿拉伯语、粤语、越南语等。

Qwen3-VL

“看懂、理解并响应世界”的视觉理解模型

Qwen3-VL 是一款真正实现“看懂世界、理解事件、做出行动”的视觉理解模型,支持 2 小时视频精确定位(如“第15分钟穿红衣者做了什么”),OCR 语言从 19 种扩展至 32 种,生僻字、古籍、倾斜文本识别率显著提升。原生支持 256K 上下文,可扩展至 100 万 token,适配超长视频与文档分析。

256K 内定位准确率100%,1M仍达99.5%。

 图4:2小时“视频大海捞针”测试 

本次发布重点强化以下能力

Qwen-Image-Edit-2509

开源图片编辑专家

Qwen-Image 本次也迎来全新升级,新版本支持多图参考编辑,强化人脸、商品、文字 ID 一致性,并原生集成 ControlNet,实现“改字不崩脸、换装不走样”的工业级稳定性,满足电商、设计、广告等高要求场景。

本次升级核心亮点

本次更新单图输入编辑的一致性获得了显著增强,并且支持了多图输入编辑。

 图5:Qwen-Image-Edit-2509图像编辑的样例 

Qwen3-Coder

上下文代码专家

Qwen3-Coder 本次迎来能力升级,通过 Agentic Coding 联合训练优化,TerminalBench 分数大幅上涨,在 OpenRouter 平台一度成为全球第二流行的 Coder 模型(仅次于 Claude Sonnet 4)。支持 256K 上下文,可一次性理解并修复整个项目级代码库,推理速度更快、Token 消耗更少、安全性更高,被开发者誉为“可一键修复复杂项目的负责任 AI”。

本次升级核心亮点

在 SWE-Bench Verified 上得分达70.3;TerminalBench 与 SecCodeBench 也显著上涨,展现更强的 CLI 应用生成与安全修复能力。

 图6:Qwen3-Coder Plus 代码能力对比图 

Wan2.5-Preview

音画同步创意引擎

通义万相 2.5 preview 版上线,首次原生支持音画同步,全面提升视频生成、图像生成、图像编辑三大核心能力,满足广告、电商、影视等商业级内容生产需求。

🎬 视频生成 —— 会“配音”的10秒电影

🖼️ 文生图 —— 能“写字”的设计大师

✂️ 图像编辑 —— “改字不崩脸”的工业级修图

通义百聆

企业级语音基座大模型

通义百聆是通义实验室推出的全新品牌,是一款企业级语音基座大模型,整合了领先的 Fun-ASR 语音识别大模型与 Fun-CosyVoice 语音合成大模型,致力于攻克复杂环境下的语音落地应用难题。

Fun-ASR 语音识别大模型专治语音识别中的“幻觉输出”“串语种”“热词失效”三大行业痛点。通过首创的 Context 增强架构(CTC+LLM+RAG),幻觉率从 78.5% 降至 10.7%,基本根治串语种问题。

支持热词动态注入与跨语种语音克隆,行业术语 100% 准确召回。Fun-CosyVoice 语音合成大模型采用创新性的语音解耦训练方法,大幅提升音频合成效果,并支持跨语种语音克隆。了解模型信息:FunAudio-ASR:解决语音大模型企业落地的“最后一公里”。声音也能有情绪?CosyVoice 全面升级!

核心能力速览

现阶段所有的模型已经同步上线,你可以进入魔搭、GitHub、Hugging Face 搜索模型名,一键部署,还可以登陆阿里云百炼平台调用 API,快去体验吧~

💬 今日互动:哪项能力最让你心动?欢迎在评论区告诉我们,我们将随机抽取3位点赞排名前三的同学送出通义定制礼盒。你也可以将文章分享给你的技术伙伴、产品经理、设计师......凭分享记录参与抽奖。

推荐阅读

Wan2.2-Animate发布!

不止SOTA!通义 DeepResearch模型、框架、方案全开源

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Qwen MAX Qwen3-Omni Qwen3-VL Qwen-Image-Edit-2509 Qwen3-Coder Wan2.5-Preview 通义百聆 人工智能 大模型
相关文章