IT之家 09月30日
华为openPangu-718B大模型:不堆数据,靠“思考”脱颖而出
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

在最新的SuperCLUE中文大模型测评中,华为的openPangu-Ultra-MoE-718B模型凭借其独特的训练哲学——“不靠堆数据,靠会思考”——在众多竞争者中脱颖而出。该模型在数学推理、科学推理、代码生成、智能体Agent等多个维度表现优异。其成功关键在于对训练数据质量的极致把控,遵循质量优先、多样性覆盖、复杂度适配原则,并建立了“数据生成-科学筛选-精准增强”的全流程方案。预训练阶段采用通用、推理、退火三阶段策略,并特别注重高难度多步骤推理和思维链(CoT)的引入。同时,通过“批判内化”机制有效缓解模型幻觉,并通过ToolACE框架升级Agent工具调用能力。最终,采用渐进动态微调、GSPO强化学习和模型融合等三步式后训练优化方案,实现了性能的精细打磨和综合提升。

💡 **精选数据,质量为先**:openPangu团队在后训练数据构建中,坚守“质量优先、多样性覆盖、复杂度适配”三大原则,并辅以“数据生成-科学筛选-精准增强”的全流程方案。通过三重审核机制清理低质量样本,并量化任务难度,重点训练中高难度任务,确保模型在复杂场景下具备强大的推理能力。

🧠 **三阶段预训练,层层递进**:模型预训练分为通用、推理、退火三个阶段。通用阶段构建广泛世界知识;推理阶段侧重逻辑能力,增加STEM及多步骤推理训练,并引入思维链(CoT);退火阶段提升知识应用和推理技能,通过提升上下文长度和引入Agent数据,为工具调用打下基础。

🛡️ **“批判内化”机制,减少幻觉**:为应对大模型幻觉难题,openPangu引入“批判内化”机制,让模型不仅学习正确解答,更学会评判优劣。通过自我批判信号,引导模型主动审视推理过程,检查逻辑跳跃、信息遗漏等问题,从而提升输出的可靠性和指令遵从性。

🛠️ **ToolACE框架,Agent能力升级**:采用升级版工具数据合成框架ToolACE,生成高质量、高复杂度多轮多工具调用数据。通过领域工具组合、交互式目标轨迹生成、多智能体对话生成等技术,使模型在复杂交互中能准确灵活地调用工具。

📈 **三步后训练,性能精细打磨**:模型经过渐进动态微调(PDFT)平衡拟合与欠拟合;采用GSPO算法进行强化学习,保障MoE模型训练稳定性;最后通过模型融合整合不同阶段模型的优势,生成综合性能更强的模型。

高手如云,高手如云,但华为依旧“杀”出了一片天。

就在最新一期的 SuperCLUE 中文大模型通用基准测评中,各个 AI 大模型玩家的成绩新鲜出炉。

从大家最为关心的开源、国产两个维度来看,前三名排名分别为:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

openPangu-718B 华为 大模型 AI SuperCLUE 中文大模型 模型训练 幻觉缓解 Agent MoE
相关文章