本文介绍了Qwen3-Coder系列的三款模型:Qwen3-Coder-30B-A3B-Instruct、Qwen3-30B-A3B-Thinking-2507和Qwen3-30B-A3B-Instruct-2507。Qwen3-Coder-30B-A3B-Instruct在Agentic能力、长上下文理解(256K原生,可扩展至1M)和多平台兼容性方面表现突出。Qwen3-30B-A3B-Thinking-2507在数学(AIME25高分)和代码能力(LiveCodeBench v6)上取得突破,并全面提升了通用能力和长上下文处理能力。Qwen3-30B-A3B-Instruct-2507则以激活3B参数实现媲美顶尖闭源模型的性能,并在指令遵循、推理、文本理解、数学、科学、编程及工具使用等方面全面增强,同时支持256K的文本理解能力。
🌟 Qwen3-Coder-30B-A3B-Instruct在Agentic能力方面表现卓越,在代理式编程、浏览器使用和工具调用等方面超越了当前大多数开源模型,仅略逊于顶级的闭源模型。其原生支持256K的上下文长度,并通过YaRN技术可扩展至1M,能够全面理解整个代码仓库,有效解决了代码上下文断层的问题。此外,该模型针对Qwen Code、CLINE、Roo Code、Kilo Code等平台进行了专门优化,提供了专门设计的函数调用格式,提升了使用便利性。
🧠 Qwen3-30B-A3B-Thinking-2507在数学和代码能力方面实现了双重突破。在数学能力评测AIME25中,该模型获得了85.0的高分;在代码能力测试LiveCodeBench v6中得分66.0,均超越了Gemini2.5-Flash(thinking)和Qwen3-235B-A22B(thinking)。同时,该模型在知识水平(GPQA、MMLU-Pro)上也较上一版本有显著进步。此外,它在通用能力评测,如写作、Agent能力、多轮对话和多语言指令遵循等方面也全面超越了竞品,并支持原生256K,可扩展至1M的上下文长度,适合处理复杂推理任务。
🚀 Qwen3-30B-A3B-Instruct-2507以轻量级设计展现出强劲性能,仅激活3B参数即可媲美Gemini 2.5-Flash(non-thinking)和GPT-4o等顶尖闭源模型。该模型在通用能力方面得到了全面的增强,包括指令遵循、逻辑推理、文本理解、数学、科学、编程以及工具使用等多个维度。它还具备更广泛的多语言长尾知识覆盖,在主观性和开放性任务中更能贴合用户偏好,输出质量更高。同时,其长文本理解能力也达到了256K tokens。
一、Qwen3-Coder-30B-A3B-Instruct1️⃣ 卓越的Agentic能力拥有超强的Agent能力。在代理式编程、浏览器使用、工具调用等领域,超越当前顶级开源模型,仅略逊于顶配版Qwen3-Coder-480B-A35B-Instruct,及Claude Sonnet-4、GPT4.1等领先闭源模型。2️⃣ 仓库级长上下文理解原生支持 256K tokens,支持 YaRN 可扩展至 1M tokens,整个项目库都能理解,再也不用担心代码上下文断层了!3️⃣ 多平台兼容性优化具备专门设计的函数调用格式,为Qwen Code、CLINE、Roo Code、Kilo Code等平台作了优化,用起来超顺手。二、Qwen3-30B-A3B-Thinking-25071️⃣ 数学、代码双重突破新模型在聚焦数学能力的 AIME25 评测中斩获 85.0 的高分,在代码能力测试LiveCodeBench v6中得分 66.0,两项核心推理能力均超越Gemini2.5-Flash(thinking)、Qwen3-235B-A22B(thinking);新模型的知识水平(GPQA、MMLU-Pro)也较上一版本进步显著。 2️⃣ 综合能力全面提升在写作、Agent能力、多轮对话和多语言指令遵循等通用能力评测中,Qwen3-30B-A3B-Thinking-2507均超越Gemini2.5-Flash(thinking)、Qwen3-235B-A22B(thinking)。 3️⃣ 更长的上下文处理能力支持原生 256K tokens,可扩展至 1M tokens;同时思考长度增加,适合复杂推理任务,推荐设置更长的思考预算以释放最大潜力。三、Qwen3-30B-A3B-Instruct-25071️⃣ 轻量高效,性能强劲仅激活3B参数,就能取得可媲美 Gemini 2.5-Flash(non-thinking)、GPT-4o等顶尖闭源模型的超强性能。2️⃣ 通用能力全面增强:指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等多维度均有显著提升。3️⃣ 多语言与长文本支持:多语言长尾知识覆盖更广,主观性和开放性任务中更贴合用户偏好,输出质量更高;长文本理解能力达到 256K tokens。