index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
百度文心最新模型ERNIE-5.0-Preview-1022(文心 5.0 Preview)在权威大模型评测平台LMArena的文本竞技场排名中,一举跃居全球并列第二、国内第一。该模型取得了1432的高分,与OpenAI的gpt-4.5-preview-2025-02-27及Anthropic的claude-opus-4-1-0805等国际顶级模型持平。文心 5.0 Preview在创意写作、复杂长问题理解和指令遵循等方面表现出色,其在创意写作任务中排名第一,复杂长问题理解中排名第二,指令遵循中排名第三。这些表现得益于百度在“芯片-框架-模型-应用”四层全栈布局的技术投入,特别是飞桨深度学习平台和自研昆仑芯的支持。
🌟 **文心 5.0 Preview 性能卓越,LMArena 榜单表现抢眼**:百度最新大模型ERNIE-5.0-Preview-1022在权威的LMArena文本竞技场排名中,取得了全球并列第二、国内第一的佳绩,获得了1432的高分,与GPT-4.5-preview和Claude-opus等国际顶级模型水平相当。这一成绩标志着百度文心系列模型在全球通用智能模型竞争格局中巩固了其第一梯队的地位,显示出其强大的技术实力和快速的进化能力。
✍️ **多维度能力提升,特别是在创意与理解方面**:文心 5.0 Preview 在多项关键能力上展现出显著优势。在创意写作任务中,其生成内容的速度与质量均大幅提升,位列第一,这对于营销文案、剧本创作等场景具有重要意义。在复杂长问题理解方面,模型在处理多层逻辑和长文本方面表现出色,排名第二,能够胜任学术问答、报告分析等高认知任务。同时,在指令遵循任务中,其排名第三,意味着在智能助理、代码生成等应用场景的适用性大大增强。
💡 **全栈技术布局是关键驱动力**:百度在AI领域构建的“芯片-框架-模型-应用”四层全栈技术架构是文心 5.0 Preview 取得成功的核心支撑。自研的飞桨(PaddlePaddle)深度学习平台提供了强大的训练和推理能力,并通过与文心模型的联合优化,显著提升了模型性能。同时,自研的昆仑芯为大模型训练提供了充足的算力保障,确保了集群效能和训练效率。这种贯通的技术闭环,使得百度能够持续推动AI技术的创新与落地。
🚀 **从技术追赶到能力引领的转变**:文心 5.0 Preview 在LMArena榜单上的优异表现,不仅是百度长期技术投入的阶段性成果,也可能预示着中国AI技术体系正从“技术追赶”模式向“能力引领”模式过渡。这意味着中国在通用人工智能领域正逐步展现出其原创性和领先性,为全球AI发展贡献中国智慧和力量。
原创 关注AI的 2025-11-09 19:47 北京
超越GPT-5-High,文心5.0 Preview这么强?

两个模型都能识别出文档中未提及的信息,不过这里 claude 额外识别到了 15 秒的恢复时间。总的来说,在「客服」这个特定角色的扮演上,文心 5.0 Preview 的回答非常清晰、专业且展现了较高的服务意识。指令遵循我们继续测试文心 5.0 Preview 的指令遵循能力。这项能力是衡量一个模型是否「可靠」和「可控」的关键指标,直接决定了它在专业领域的实用价值。我们先从一个简单的「回避型」指令开始。写一篇关于苹果公司(Apple)的简短介绍,但不要提到「iPhone」或「乔布斯」。
轻松完成。模型准确识别并执行了「不要提 X」的负向指令,这是当今主流大模型都应具备的基础能力。接下来,我们大幅提升了难度,设计了一个多层、反直觉、且包含元指令的复杂任务。同时继续用 claude-sonnet-4.5-20250929 做对比。请你写一段关于「月球」的描述,至少 100 字。【【【绝对刚性约束】】】:在你的全部回答中,一个「的」字都不允许出现。请在回答后,另起一行,用「【合规性检查:是/否】」来说明你自己是否做到了。在完全不用「的」字的限制下,模型生成的描述依然保持了相当高的可读性和信息密度。内容涵盖了月球的身份、外观、地貌、环境、科研价值和人文意义。不过如果不把标点符号算成字数,这一段没有满足至少 100 字的要求。
两个回答都完全没有使用「的」字,并准确地在回答之后另起一行进行合规性检查。文心 5.0 Preview 胜在文笔意境,而 claude 胜在信息密度。让我们再升级一次难度。请你写一段关于「北京」的介绍,正文(不含编号和标题)至少 150 字。在撰写时,必须同时满足以下所有【【【绝对刚性约束】】】: 全文不允许使用「的」字。 全文不允许使用逗号(「,」)和顿号(「、」)。 (注:可以使用句号「。」或分号「;」等其他标点) 回答必须明确分为三个带编号的段落。
(例如:「1. ...」「2. ...」「3. ...」) 【元指令(自我审计)】在你的回答(三个段落)全部完成后,请另起一行,使用「【自我审查】」作为标题。然后,你必须准确报告你在这篇介绍中使用了多少个「的」字,以及多少个「逗号和顿号」。你必须严格按照以下格式报告: 【自我审查】 违规字「的」使用:[此处填写数字] 次 违规标点「,、」使用:[此处填写数字] 次
这两个回答都体现了优秀的指令遵循能力。它们不仅理解了所有复杂的、反直觉的规则,还精确执行了「自我定量审计」的元指令。和前面一样,文心 5.0 Preview 语言更具可读性和「文采」,而 claude 信息密度更高。百度,凭什么 back?上文实测让我们亲身感受到了文心 5.0 Preview 的不俗实力,其能力的快速进化显然不是单点突破的结果,背后支撑着的是百度构建的「芯片-框架-模型-应用」四层全栈布局。
纵观当前全球领先的大模型厂商,百度是为数不多拥有 AI 技术全栈架构的公司,从算力到算法、从模型应用到生态建设,已经形成了一条成熟、贯通的技术闭环。我们注意到,在框架层,其飞桨(PaddlePaddle)深度学习平台扮演着重要角色。据了解,该平台是国内较早自主研发的深度学习框架,提供了分布式训练与推理能力。百度方面的信息显示,飞桨与文心的联合优化(包括训练吞吐、分布式扩展、多模型结构混合并行和硬件通信等),是其模型性能提升的技术基础之一。
根据公开数据,飞桨核心框架目前已更新至 v3.2 版本,在大模型训练、硬件适配和生态支持上进行了升级,并同步更新了大模型开发套件 ERNIEKit 和高效部署套件 FastDeploy。截至 2025 年 9 月,其公布的飞桨文心生态开发者数据为 2333 万,服务企业达到 76 万家。
在应用层,可以看到百度正依托文心大模型能力,构建其产品矩阵,试图覆盖内容、搜索、办公、开发等多元场景。其代表性产品包括 C 端智能助手文心、B 端百度智能云千帆大模型平台以及百度文库 AI 助手、智能办公平台如流、智能代码助手文心快码等。从布局上看,百度似乎希望通过这些应用层的拓展,推动其技术在产业中落地。
在芯片层,百度强调了其自研的昆仑芯。根据报道,昆仑芯三代万卡集群已于今年年初点亮,其目标是为大模型训练与推理提供算力支持,特别是保障「集群效能最大化」下的训练吞吐与通信效率。
综合来看,这四个层面的协同演进,构成了百度在通用人工智能领域布局的核心逻辑。此次,模型层的文心 5.0 Preview 在 LMArena 文本榜单上获得国内第一的排名,可以被视为百度在 AI 底层架构上长期技术投入后的一次阶段性成果展现。同时,行业内有一种观点认为,这也可能反映出中国 AI 技术体系正从「技术追赶」向「能力引领」的阶段过渡。结语进入到 11 月,国内大模型依然没有停下继续突破的脚步,好消息一个接着一个。月之暗面等国产模型中相继发布了 Kimi K2 Thinking 等推理模型,而在通用模型赛道,百度文心 5.0 Preview 凭借「全球并列第二、国内第一」的成绩宣示了自己的强势回归。据说在下周举办的百度世界 2025 大会上,文心正式版将亮相?
我们可以期待一下了。© THE END
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com
阅读原文
跳转微信打开