index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
阿里云栖大会发布了多款Qwen系列模型,包括Qwen3-Max、Wan2.5、Qwen3-VL、Qwen3-Omni等。Qwen3-Max参数超过1万亿,在代码和Agent能力上表现出色;Wan2.5支持音画同出,提升数字人和人物表演能力;Qwen3-VL是Qwen系列中最强大的视觉语言模型,支持256K token上下文;Qwen3-Omni是开源的全模态模型,支持文本、图像、音频和视频的输入。此外,还发布了Qwen3-Coder-Plus、Qwen3-Next、通义百聆等模型。
🌟 Qwen3-Max参数超过1万亿,在代码和Agent能力上表现出色,支持100万Token的上下文,并分为Instruct版和Thinking版。
🎬 Wan2.5支持音画同出,可以上传图片+音频直出视频,提升数字人和人物表演能力,并解决Veo3无法保持音色一致的问题。
🖼️ Qwen3-VL是Qwen系列中最强大的视觉语言模型,原生支持256K token上下文,扩展到100万上下文,并具有视觉Agent能力。
🌐 Qwen3-Omni是开源的全模态模型,支持文本、图像、音频和视频的输入,支持119种文本语言交互、19种语音理解语言与10种语音生成语言。
🚀 其他发布的模型还包括Qwen3-Coder-Plus、Qwen3-Next、通义百聆等,分别增强代码安全性、提升长文本推理吞吐量、提供语音识别和合成能力。
四. Qwen3-OmniQwen3-Omni是一个开源的全模态模型,阿里的盘子真的铺的太大了,模型也真的太全了。
这个是昨天凌晨提前发了,但是在今天的云栖大会上,正式发布了。
这是一个纯粹的端到端模型,Qwen3-Omni在训练的时候学习了很多跨模态的数据,原生支持文本、图像、音频和视频的输入,支持119种文本语言交互、19种语音理解语言与10种语音生成语言。对,你可以直接进行端到端语音对话,延迟只有211毫秒。还支持function call和MCP,能非常方便的和现有工具结合。我直接用它,来识别歌曲。还是挺好玩的。五. 其他还没完,嗯。。
还有Qwen3-Coder-Plus,推理速度更快,使用更少的 token 可达到更优的效果,代码安全性增强。
还有Qwen3-Next,总参数80B仅激活 3B,性能就可媲美千问3旗舰版235B模型,训练成本较密集模型Qwen3-32B大降超90%,长文本推理吞吐量提升10倍以上,就离谱。还有全新的语音模型家族通义百聆,涵盖语音识别大模型Fun-ASR、语音合成大模型Fun-CosyVoice。
Fun-ASR基于数千万小时真实语音数据训练而成,具备强大的上下文理解能力与行业适应性,能实时处理10多种语言。Fun-CosyVoice可提供上百种预制音色,完全可以拿去做各种客服、有声书、AI玩具啥的。还有Qwen3-LiveTranslate-Flas,实时多模态翻译,只有3秒多的延迟。。还有Qwen3Guard,专为全球实时AI安全构建的Qwen3基础安全审核模型,非常适合做RL奖励建模。还有图片编辑模型Qwen-Image-Edit-2509。。。阿里,真的,就离谱。。。开源给我人开傻了。写在最后
总而言之,阿里这次发布会给我的感觉就是四个字。
倾其所有。
为了这个繁荣昌盛的AI生态。几乎是构建了一个从底层模型到上层应用,覆盖文本、视觉、音频、视频的全模态、全场景的超级生态。而且我看了下数据,现在,开源届,现在真的就是Qwen一统江湖了。
这个肌肉,秀的是真的6。不得不夸一句。今天的光,属于阿里。以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。
>/ 作者:卡兹克
>/ 投稿或爆料,请联系邮箱:wzglyay@virxact.com
阅读原文
跳转微信打开