百度年度十大科技前沿发明聚焦信息流理解、自动驾驶、AI搜索引擎、数字人、大模型训练及科学计算等领域。这些看似高深的技术正悄然渗透生活,如通过“剧本驱动的高说服力数字人技术”实现的电商直播,以及提升推荐精准度、出行安全和搜索体验的各项创新。文章深入探讨了这些发明背后的“工程师浪漫”,从大模型训练的“安全带”到推荐系统的革新,再到AI for Science的突破和AI搜索引擎的新范式,展现了百度在技术研发上的长期投入与战略眼光。这些发明将不确定性转化为确定性,正加速AI能力的内化,驱动“效果涌现”,改变产业结构,并为用户带来更智能、更便捷的生活体验。
💡 **前沿发明驱动AI落地与应用**:百度发布的十大科技前沿发明,涵盖信息流内容理解、自动驾驶、AI搜索引擎、数字人、大模型训练和科学计算等多个关键领域。这些技术并非空中楼阁,而是通过“剧本驱动的高说服力数字人技术”在电商直播中实现单场超5500万GMV,以及在推荐、出行、搜索等方面的具体应用,将前沿科技转化为触手可及的便利,展现了AI从科研成果到实际生产力的转化路径。
⚙️ **“工程师的浪漫”:构建AI时代的坚实底座**:文章深入剖析了多项核心技术的研发过程,如大模型训练中“全流程高效容错技术”将万卡集群的不可控转化为可预期管理,以及信息流推荐系统从“两阶段推荐”革新为“大模型+端到端架构”,实现了对内容和用户的深度理解。这些技术如同“默默躲在背后使劲”的 Infra 能力,构成了AI时代最稳固的底座,体现了工程师们追求确定性和系统性解决问题的“浪漫”。
🔬 **AI for Science与智能搜索的新范式**:百度在AI for Science领域,基于飞桨框架实现了高阶自动微分求解,在科学计算和数值模拟方面实现了数倍至千倍的提速,显著压缩了研发周期。同时,AI搜索引擎以“百度猎户座AI引擎”为核心,构建了Master-Planner-Executor-Generator四层智能体体系,从“回答问题”升级为“完成任务”,支持多模态交付,拓展了搜索边界,并致力于解决“全与准”、“快与准”、“通与专”的挑战,引领搜索进入新进化阶段。
🚀 **“效果涌现”:AI能力内化与产业升级**:百度世界大会强调“效果涌现”与“内化AI能力”,将AI视为驱动增长的底层力量,而非外接工具。通过慧播星数字人、新一代自动驾驶技术以及AI化改造的搜索应用,百度正推动AI能力深入业务流程,重构生产力。全栈自研的技术栈、高强度的研发投入、工程师文化以及丰富专利积累,共同支撑着AI从“可行”到“离不开”的尺度感,最终实现智能的普及与价值的放大。
原创 池建强 2025-11-13 23:16 北京

今年 11 月初,百度照例发布了“百度十大科技前沿发明”,这几年这件事已经成为传统。每到年末,百度就会把自己一年的最前沿的科技成果发布出来,我每年都会看,这代表了一种趋势和前沿力量。今年的榜单发布之后,我对其中的几项很感兴趣,比如:信息流端到端内容理解与序列生成技术:改进信息流内容的理解和推荐算法。
兼容端到端轨迹方案的自动驾驶横纵联合控制技术:提升自动驾驶系统的控制精度和安全性。
基于多智能体协同的 AI 搜索引擎:通过多个智能体的协作来优化搜索结果和体验。
剧本驱动的高说服力数字人技术:用于创建更具表现力和可信度的AI数字人。
大模型训练全流程高效容错技术:提高大规模AI模型训练过程的稳定性和效率。
飞桨科学计算高效求解技术:提升大规模科学计算任务的计算效率与精度。
这些精深的前沿技术看起来离我们普通人很远,其实正在慢慢渗入生活的方方面面——让推荐更懂人心,让出行更安全流畅,让搜索变成真正的智能助手。比如提到数字人,很多人会想到之前罗永浩数字人百度电商直播的场景。两个数字人,一个主讲、一个接梗,后台是持续滚动的下单提示,单场GMV 超过了5500 万,这并不是讲笑话,就是数字人技术的应用和落地。
把这样的场景放到技术图谱里,它对应的就是“剧本驱动的高说服力数字人技术”:更像人,更会讲,不会累,能自我调度,进行“助播—场控—运营”的协作,把直播这件事真正拆成可计算的链路,让人和货协同起来,让 AI 把每一个环节做得更好。数字人并不只是来帮助头部主播,对于很多不善言辞的偏远小商家,这样的技术会给他们的电商业务带来巨大的转化。数字人的故事只是开头。把镜头再拉远一点,会看到“很多条发明”的路径:从芯片到框架、从模型到应用,这些技术像一根根迎风拉起的线,最后在应用侧编织成网,形成可以落地的成果。我自己是程序员出身,我会把这样的故事叫做“工程师的浪漫”。今天是 2025 百度世界大会,我受邀参加了这场技术盛会。大会的 Slogan 是“效果涌现”,于是我约到了百度各个技术发明团队的同学,和他们一起聊了聊从科研成果、技术发明到产品和应用落地的故事,实在是大开眼界。如果不是这次聊天,很难想象国内在某些技术领域已经做到了这个阶段。
一、前沿发明的诞生:那些捅破“天花板”的人科技发展到现在,很多技术发明都来自大公司而不是科研机构和院校了。这些创新多数隐藏在应用与产品的幕后,却始终指向并尝试突破那层“技术天花板”。1)大模型训练的“安全带”:把万卡集群的不可控变成可预期管理AI 发展到现在,大模型训练变得无比重要。在现阶段,Scaling Law 依然有效,也就是说,训练的卡越多,越可能出现更多“涌现”和更好的结果。但大模型训练就像长跑,当你的规模从千卡扩大到万卡集群,“有卡掉队”就不再是偶发现象。传统同步训练范式意味着什么?“任何一张卡出问题,所有卡都得停下来等”,什么时候故障修复了才能继续训练,成本会像流水一样浪费掉。这里考验的是 Infra 团队的“容错”能力,真正的难点在于全场景的故障自动召回以及全流程的恢复成本极致压缩:训练过程里的异常定位、故障恢复,都需要有体系化的解决方案。最终他们通过零损失训练快照、基于通信行为的故障自动召回等技术,把万卡任务的训练有效率提升到 98%+,把随机损耗纳入工程控制变量,这非常了不起。
这套“全流程高效容错”已在文心系列的大模型训练中跑完多个周期,属于那种“默默躲在背后使劲,影响所有用户”的发明。这类发明解决的是“确定性”问题:当任务以周为单位、以万卡为规模向前推进时,工程体系必须给出可预期的交付。容错团队的同学对他们的工作描述得很朴实——“我们就是纯粹的 Infra”。我想这种朴实,构成了 AI 时代最稳固的底座能力。2)推荐系统的革新:信息流端到端内容理解与序列生成技术这个技术解决的问题就是信息流推荐的准确性和质量,这项技术不仅入选了今年的“百度十大科技前沿发明”,相关技术团队更是获得了今年的百度最高奖,牛在哪儿呢?技术团队的同学给我介绍,他们把传统的“两阶段推荐”做了根本性改造——不再依赖先给内容打标签(如“剧情片”等等),用这些特征与用户兴趣做匹配;而是以“大模型+端到端的架构”直接去理解图文与视频的多模态信息,捕捉更深层的语义、风格与叙事节奏,把理解和分发做成一条链路,尽量减少中间信息损耗。结果就是系统更懂内容,也更懂用户,同时能更有效地抵抗“低质批量”生成内容的噪声,构建出“理解—分发—反馈—再理解”的环路,在真实业务中跑出了数据的增长。其中的难点在于将大模型与推荐系统的深度融合:一方面需要提炼大模型能力与推荐系统有机结合提升效果,另一方面还需要在毫秒级响应中平衡性能和成本的压力。团队在算法与工程两端做了大量优化,让系统在推荐效果与效率之间取得平衡。
当前,这项技术已在百度 App、地图、电商等多条业务线落地并产生显著效果。未来团队计划赋予系统自我评估与持续进化的能力,引入用户反馈形成正向循环,让推荐自动学习并修正偏差,进一步提高优质内容的分发比例和推荐体验。3)AI for Science:在 AI 框架内支持科学计算、高性能数值模拟这次百度世界大会,我还见到了搞 AI for Science 的百度同学。AI for Science 本质就是把 AI 引入科学问题的求解流程,尤其是涉及物理机理与控制方程的场景。受 AlphaFold 2 等成果的启发,AI for Science 正在成为 AI 的重要应用方向。自 2022 年底起,百度科学计算团队基于飞桨(PaddlePaddle)开展相关研发,面向生物计算、流体力学、材料、化学、气象预报等领域的核心问题——这些问题通常植根于物理机理与控制方程(多为偏微分方程),需要进行复杂而昂贵的仿真。这里的难点在于梯度的阶数与工程复杂度:传统图像/NLP训练主要依赖“一阶梯度”即可完成反向传播,而在许多科学计算场景,尤其需要求解含高阶导数的偏微分方程时,“高阶自动微分”往往成为关键。若靠手工编写高阶反传,链式求导会迅速带来代码与维护的“组合爆炸”。为此,团队采用“组合算子拆解 + 高阶自动微分”的方案:把复杂算子拆成可微原语,在框架层自动完成高阶导数的计算与优化,从而在精度与性能之间取得平衡。自动化:研究人员无需手工编写复杂的高阶反向计算流程,框架自动完成高阶微分。高性能:底层使用 C++ 而非 Python 进行算子拆解,研发成本高一点,但换来显著的求解效率。这套能力让求解高阶偏微分方程更易用、更高效。在典型工业场景里,相比传统仿真软件(如 COMSOL),PaddleScience 在“芯片散热”仿真上提速约 100 倍;在“汽车外流场预测”上提速近 1000 倍。对产业的直接意义是压缩研发周期:例如汽车外形设计从几小时缩短到几秒,企业可以更快迭代更多方案,优化油耗与续航。PaddleScience 也是开源项目。在“高阶自动微分求解”的特定场景下,飞桨相较 PyTorch 具备约一倍的性能优势。原因在于:PyTorch作为通用框架对该场景优化不够深入;飞桨在保持通用性的同时更关注科学计算,并由团队进行模型与框架的联合优化。使用门槛与成本与PyTorch 非常接近,便于工程团队快速迁移与落地。AI for Science 以更自动化、更高性能的高阶微分求解,降低复杂仿真的时间与成本,把科研与工程中的关键环节推向“可用、好用、离不开”的阶段。4)基于多智能体协同的AI 搜索引擎技术:从回答问题到完成任务传统信息检索系统(IR)及现有大语言模型驱动的检索增强生成(RAG),虽然实现了从“文档列表”到“直接答案生成”的跨越,但依旧无法应对需多步推理、工具协同的复杂查询。基于此,百度搜索团队提出AI时代的搜索新范式,其核心框架 DeepSearch 以 Master-Planner-Executor-Generator 四层智能体体系为技术底座,来模拟人类信息处理的“感知-规划-执行-生成”全流程,动态适配从单轮事实查询到复杂多阶段推理的全场景需求。它还有一个响亮的名字—“百度猎户座AI引擎”。与传统搜索相比,搭配了百度猎户座的AI 搜索有三大变化:在 “需求” 维度 ,AI 搜索引擎具备理解多模态混合输入、并挖掘用户个性化的深层诉求的能力。在 “信息” 维度 ,AI 搜索不仅精准检索到答案,还能主动规划,调用服务工具,完成复杂任务。在 “交付” 维度 ,AI 搜索支持多模态交付,除了文字外,还能提供图片、视频、表格,甚至数字人智能体。新技术的发展,大幅拓展了用户搜索的边界,也带来了新的挑战:全与准的悖论(如何消除幻觉):通过强化学习,全方位的提升AI搜索信息整合和抗噪能力,让每一句生成尽量落在权威、实时的事实之上,学会“知之为知之,不知为不知”。快与准的权衡(平衡性能开销):通过动态剪枝与注意力优化技术进行全面模型提速,实现了业界最快的回答速度的同时,充分保障系统能力呈现。通与专的把握(提升知识深广度):引入领域增强与多智能体协作,在医疗、金融、法律等垂直场景用高质量数据与知识图谱/RAG提升专业度。猎户座AI引擎,让搜索完成了LLM时代中新的进化,它打造了一个能理解复杂需求、融合多源信息、交付完整价值的AI引擎。此外,希望构建 AI 搜索能力的企业和开发者只需简单接入,即可获得百度猎户座的原生能力支持,实现技术成果共享与生态共赢。这些故事有一个共同点:把不确定变成确定。有人盯系统,有人盯语义,有人盯科学问题的可解性;他们彼此不喧哗,用专利和落地的功能说话——这就是“前沿发明”的日常。二、从发明到生产力:“效果涌现”不再是口号回到数字人技术,今年百度世界大会把“慧播星数字人”向全行业开放,并宣布加速出海。它的定位从“能播”升级为“会卖”,还在一些海外平台上给出了强对标的数据表现。更关键的是,它把“剧本—动作—语音—视觉—运营”做成了可控的工具链,成本与质量都进入了可规模复制的区间。数字人不再是“酷炫 Demo”,而是一个可靠的增长引擎。
再看无人驾驶。“兼容端到端轨迹方案的横纵联合控制”看起来“只改了控制器”,实际上是新一代端到端“感知—决策”的大模型方案,打通了关键的下游接口:把方向盘与油门刹车“耦合”建模,从机理上解决弯道晃动与体感不稳定的问题,驾驶风格更像真人。它的思想也被吸收进了萝卜快跑的控制体系里。这里给到的数据是全球覆盖 22 座城市、2.4 亿公里自动驾驶里程、其中 1.4 亿公里是全无人驾驶,每周25 万单是全无人订单,全无人驾驶平均1014 万公里才会出现一次气囊弹出事故——这是一条靠技术进步与运营积累持续推动的增长曲线。
然后是搜索。百度世界大会把“AI 化改造”放在了更高的层面:不再是给一个摘要卡片,而是把以文字和链接为主的互联网搜索,重塑为以富媒体与任务交付为主的 AI 搜索应用。这背后,是 AI 搜索技术和工程的改进,以及与多智能体协同工作的工程优化。用户可以随时在“智能框”与传统列表页之间切换。把这些摆在一起,搜索就不只是“找到”,而是“做到”。
这次百度世界大会的技术含金量非常足,在更广的应用层,也在同步升级。文库网盘发布 GenFlow3.0,“全局记忆”“多任务并行”“可随时追问暂停”“OfficeAgent 真正吃透 Office”等能力,面向的是长期陪伴与端到端交付;发布了能够「自我演化」的智能体伐谋,主要应用场景是为复杂的决策问题找到最优解,可运用于交通管理、金融风控、农田灌溉、生产线调度等诸多实际场景……
如果把笔调再生活化一点,那就是:当“一个人就是一个营销团队”的数字人走进中小商家的直播间,当无人驾驶的萝卜快跑从试乘变成高峰时段的可靠供给,当“搜答案”开始变成“做成事”,“效果涌现”这四个字就不再是口号。这正是这些发明的真正意义:支撑业务,贴近用户。三、内化 AI 能力:有战略眼光,也需要足够坚定在这次百度的世界大会上,李彦宏谈到了“内化 AI 能力”:当“内化 AI 能力”成为企业和个人的原生机制,智能就不再是一项额外成本,而是推动一切增长的底层力量。
这是李彦宏在 2025 百度世界大会开场就反复强调的观点,也是今年世界大会最鲜明的主题。AI 不应该只是外接的工具,而应该像电力、像空气一样,被嵌入业务流程、本地系统与人的日常工作之中,成为一种能够自动参与、自动演化、自动提升效率的原生能力。
在这场题为《效果涌现》的主旨演讲里,他给出了一个产业结构正在发生根本变化的判断:AI 正从过去芯片价值最大、应用价值最小的“正金字塔”,转向模型与应用价值指数级放大的“倒金字塔”。当应用层创新开始爆发,人们真正需要思考的问题,已经不再是“AI能做什么”,而是“我们如何让自己的每一项任务,都能接入 AI、对齐 AI,最终让 AI 在内部生长”。所谓“内化 AI 能力”,不是把 AI 当一个插件调用,而是让它参与重复劳动、重构内容生产、发现人类难以看清的认知盲区,从而让智能成为企业的增长引擎、个人的创造力引擎。只有当AI 变成每个人的原生能力,效果涌现才会真正发生。那对于百度的工程师,什么是内化 AI 能力呢?对于他们来说,就是一线工程师的日常工具箱:用百度如流的超级助理做知识搜索与文档总结、使用Code Agent 与Comet 辅助阅读老代码与生成新功能、基于算法迭代的智能标注平台把工作周期从“月”压缩到“天”等等。在 AI 时代,这些内化 AI 的工作可不是简单的换换工具,而是每个人都在学习和与 AI 合作的能力,以达成效率与质量的双提升。
说起来百度这套“内化”理论也不是凭空长出来的,有长期主义的底座:全栈自研的技术栈:从昆仑芯到飞桨、再到文心与搜索/文库的应用层,四层技术栈彼此反馈,做端到端优化。新一代昆仑芯万和天池超节点发布,并宣布五年按年推出新产品。
高强度、马拉松式研发投入:近十年研发投入累计超 1800 亿元,长期把收入 20% 以上用于研发,这在任何一家公司都算“疯狂的配方”。
工程师文化与人才培养:从工程师幸福感与效率平台,到面向社会的“1000 万 AI 人才计划”(前一阶段已培养 630 万),技术文化是一种持续输出的“公共品”。
丰富的高价值专利积累:人工智能全领域专利连续7年排名国内第一,生成式AI和大模型专利申请量中国第一、全球领先,深度学习专利申请量全球第一,高级别自动驾驶专利族全球领先。
把这些再与“十大前沿发明”的专利与落地对照,就会发现两件事:第一,专利不是装饰品,它是工程共识的沉淀与产业协作的语言;第二,当应用跑起来,很多“颠覆性”的突破正是规模化应用的结果,而不是原因——这句话今年被反复提及,也许是这轮 AI 周期最值得反复咀嚼的金句。这次我和百度的同学还聊了一个有点敏感的话题,外界常有调侃:“百度起了大早,赶了晚集”,在百度内部的同学怎么看这件事呢?
他们的回答非常实诚,比如在自动驾驶这样的硬骨头领域,压根没这种感受——长期深耕,底层实力与安全记录是不会骗人的;起大早是一定的,百度一直以来对技术的投入都是非常提前以及肯投入的,很多领域都是十多年的布局,但是对于这个“集“到底则怎么理解,百度的同学好像并没有那么激烈。可能是这家公司更多的员工都是技术出身,他们更期待的似乎对于集的回报周期更相比其他企业员工更强的耐力,因为不管集来没来,但他们是每天都可以感知到技术的进步,这相对于赶集,是更让他们安心和有成就感的。“努力朝前跑”。这是工程师的话没错了。和百度同学聊天的过程中,我更愿意用一个词来概括:尺度感。数字人、自动驾驶、AI 搜索、AI for Science,看起来是不同赛道,底层却共享同一条路径尺度:从“可行”到“可用”,从“可用”到“好用”,再到“离不开”。这一路需要对确定性的坚持、对系统性的把握、对规模化的耐心,也需要在舆论的起落中保持一种克制的乐观。“我有时候真的感觉所从事的工作代表着未来。”这句话确实是工程师说的,也能落到工程上,一次次把不稳定磨掉、把链路打通、把成本压下去、提升用户体验。
技术改变世界的方式,常常像河水改道——不是一夜冲垮,而是日复一日的侵蚀。等到某天,我们已经不再感叹“这东西竟然是 AI 做的”,而只是很自然地说:它就该这么好用啊。阅读原文
跳转微信打开