通义 09月26日
通义大模型发布原生全模态Qwen3-Omni
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

通义大模型发布了新一代原生全模态大模型Qwen3-Omni,该模型能同时处理文字、图片、语音和视频,并在36项音视频基准测试中取得优异成绩,其中32项为开源模型最佳,22项达到SOTA水平。其核心在于创新的Thinker-Talker架构,将模型能力分为负责语义理解和生成的“思考者”(Thinker)与负责流式语音输出的“表达者”(Talker),兼顾了高效率与“全模态不降智”。模型支持119种语言输入,30分钟长音频理解,并提供灵活的个性化定制和工具调用能力。Qwen3-Omni已在Hugging Face等平台开放,并提供轻量级Flash版本及专注于音频描述的Captioner开源模型。

🌟 **原生全模态处理能力**:Qwen3-Omni 是一个原生全模态大模型,能够同时理解和生成文字、图片、语音和视频。在36项音视频基准测试中,32项超越同类开源模型,22项达到SOTA水平,真正实现了“全模态不降智”,确保了在处理多模态任务时,其文本和图像的单模态性能也保持稳定。

🧠 **创新的Thinker-Talker架构**:为实现高效和“不降智”的性能,Qwen3-Omni采用了Thinker-Talker架构。MoE架构的“Thinker”负责深度语义理解和文本生成,确保核心文本与图像能力不受影响;MoE架构的“Talker”则专注于流式语音Token生成,直接接收高层语义,实现超低延迟(音频对话低至211ms)且与文本意图高度一致的语音输出,解决了能力与响应速度的平衡问题。

🗣️ **丰富的语言与声音支持**:模型支持119种文本语言输入,19种语音输入语言和10种语音输出语言,满足全球化应用需求。同时,它能处理长达30分钟的音频内容,适用于会议记录、课程转录等长语音场景,并提供多种自然音色(Flash版17种,开源版3种),增强交互的个性化和温度。

🛠️ **灵活的定制与集成能力**:Qwen3-Omni支持通过系统提示词(system prompt)轻松定制模型的回复风格、语气或人设,满足不同业务需求。此外,它还支持工具调用(Function Call),可与外部工具或API集成,构建自动化智能工作流,大幅提升效率。轻量级Flash版本也降低了成本和延迟。

🚀 **开放与社区共建**:Qwen3-Omni已在Hugging Face、ModelScope、DashScope和GitHub上开放,并提供Qwen Chat体验。同时,开源了专注于生成详细、低幻觉音频描述的Captioner模型,填补了开源社区在该领域的空白,为上层应用开发提供了基础工具。

原创 通义大模型 2025-09-25 10:31 浙江

原生全模态不降智

一个模型能够同时处理文字、图片、语音和视频了!

新一代原生全模态大模型 Qwen3-Omni 正式发布。在 36 项音视频基准测试中,取得了 32 项开源模型最佳效果,22 项达到 SOTA 水平。

在音视频能力强劲的同时,文本与图像的单模态性能保持稳定,真正实现“全模态不降智”

现阶段,Qwen3-Omni 已在 Hugging Face、ModelScope、DashScope 和 GitHub 上开放,你也可以通过 Qwen Chat  Qwen3-Omni-Flash 模型直接体验(点击对话框右下角“使用语音和视频聊天”)。

它是如何做到“全能”且“不偏科”的?关键在于其架构设计。

Thinker-Talker 架构

分工协同,兼顾效率与能力

为实现“全模态不降智”的目标,Qwen3-Omni 采用了创新的 Thinker-Talker 架构将模型能力明确分工,在保障语义理解深度的同时,实现超低延迟的流式语音输出,一举解决“能力不降智”与“响应速度慢”两大难题。

此外,模型的音频编码器采用基于 2000 万小时数据训练的 AuT 模型,为音视频理解提供了强大的通用表征基础。

为实现毫秒级实时交互,Talker 采用了创新的多码本自回归方案,在每一步解码中,MTP(Multi-Token Prediction)模块会预测当前音频帧的残差码本。随后,Code2Wav 模块将这些码本即时合成为波形,实现逐帧流式音频生成

Qwen3-Omni 完整架构图

如上图所示,Qwen3-Omni 通过 Vision Encoder 和 AuT 音频编码器将图文音视频输入编码为隐藏状态,由 MoE Thinker 负责文本生成与语义理解,再由 MoE Talker 结合 MTP 模块,实现超低延迟的流式语音生成。得益于这一协同设计,Qwen3-Omni 纯模型端到端的音频对话延迟可低至 211ms,视频对话延迟可低至 507ms,交互体验如真人对话般自然流畅。

此外,模型支持长达 30 分钟的音频内容理解,适用于会议记录、课程转录等长语音场景。

性能验证

全能表现,数据说话

在多项权威评测中,Qwen3-Omni 的“全能且不偏科”得到了充分验证:

Omni-30B-A3B 性能图

在文本、音频、语音生成、图像和视频上表现出色

119种语言、50+种音色,开箱即用

这些能力,最终都要服务于真实世界的复杂场景。为此,Qwen3-Omni 在语言覆盖、内容长度与声音表现上做了深度优化:支持 119 种文本语言输入、19 种语音输入语言和 10 种语音输出语言,满足全球化应用需求;支持长达 30 分钟的音频内容理解,完整处理会议、课程等长语音场景;语音合成提供 17 种自然音色(Flash版)或 3 种基础音色(开源版),让交互更具个性与温度。

语种和方言(19种)

语音生成(10种)

语音翻译

其中,xx(任意语言)包含的语言有:中文、英语、韩语、日语、德语、法语、意大利语、西班牙语、葡萄牙语、印尼语、泰语、阿拉伯语、粤语、越南语等。

灵活易用

一行提示词,定制你的专属AI

Qwen3-Omni 不仅能力全面,更注重实际场景中的快速适配能力。

Qwen3-Omni-Flash 性能图

为推动技术开放与社区共建,我们同步开源了 Qwen3-Omni-30B-A3B-Captioner 模型。

这是一个专注于生成详细、低幻觉音频描述的通用模型,能够为任意音频内容生成高质量的文本摘要或场景描述。该模型填补了开源社区在高质量音频 Caption 领域的空白,为音视频内容分析、无障碍服务、智能剪辑等场景提供了强大基础工具。

你可通过 Hugging Face 或 ModelScope 直接下载使用,并基于此构建更丰富的上层应用。未来,我们也将会持续推进多说话人语音识别(Multi-speaker ASR)视频 OCR 与结构化信息提取音视频主动学习机制强化智能体与函数调用能力。我们期待和你一起探索 Qwen3-Omni 更多创新应用场景。

💻 GitHub开源地址

https://github.com/QwenLM/Qwen3-Omni

🤖 模型库

https://modelscope.cn/collections/Qwen3-Omni-867aef131e7d4f

🎬 在线Demo试玩

https://chat.qwen.ai/?models=qwen3-omni-flash

推荐阅读

你们催更的模型,云栖大会一口气全发了!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

通义大模型 Qwen3-Omni 全模态大模型 AI 人工智能 多模态 大模型 Tongyi Multimodal LLM AI Artificial Intelligence Large Language Model
相关文章