MacTalk - 微信公众号 09月24日
快手出价大模型:生成式强化学习优化广告投放
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了快手公司在广告出价环节的技术创新——“快手出价大模型”,也称为“生成式强化学习出价技术”。这项技术旨在解决广告主如何在预算约束下,实现广告效果最大化的问题。文章详细阐述了从传统的PID、MPC到强化学习(RL)的出价算法演进,并重点介绍了快手如何将生成式模型(如Decision Transformer和Diffusion Model)与强化学习结合,实现“多维思考”和“长程理性”的出价策略。通过GAVE和CBD两项创新技术,该模型能够有效解决离线训练的探索难题和生成轨迹的偏好对齐问题,最终在保障用户体验和平台商业效率之间取得平衡,并为广告主带来了显著的收入提升。

💡 **核心技术创新:生成式强化学习** 快手出价大模型将生成式模型(如Decision Transformer和Diffusion Model)与强化学习相结合,实现了从“单步调参”到“序列思考”的飞跃。这种方法能够“多维思考”,像下围棋一样考虑整盘棋局,而非仅关注下一步,从而实现“长程理性”,优化广告投放效果。

🚀 **技术演进与优势** 该技术是快手在广告出价领域的一次重大突破,经历了PID、MPC到强化学习的三代演进。与传统方法相比,生成式强化学习能够根据动态变化的用户行为、流量和广告主目标,更精准地预测和决策,有效平衡用户体验与商业效率,避免广告主“钱打水漂”或“抢不到流量”的困境。

🛠️ **关键创新与落地** 为解决离线训练的探索难题和生成轨迹的偏好对齐问题,快手提出了GAVE(Generative Auto-Bidding with Value-Guided Explorations)和CBD(Causal Auto-Bidding via Diffusion Completer-Aligner)两项技术。GAVE通过价值函数指导探索,使模型能在离线环境中学习超越历史水平的策略;CBD则通过Completer和Aligner两步,确保生成轨迹的物理合法性和业务目标对齐,提升了广告投放的稳健性和效果。

📈 **多方价值与成效** 快手出价大模型为广告主带来了省钱省心的投放体验,提高了平台的推荐效率和收益分配的稳定性,并使广告内容对用户而言更相关、更舒适。自2025年落地以来,已为平台带来了超过3%的广告收入提升,证明了其在实践中的显著成效。

原创 池建强 2025-09-24 12:10 北京

现实世界里,大部分人都喜欢消费买东西,几乎所有人都不喜欢广告。但是,不管喜不喜欢,我们都和广告朝夕相处,刷短视频、看资讯、买东西,背后都有广告系统在默默支撑着。

在这台巨大的机器里面,有一个至关重要的环节叫做出价,如果你在快手、微信投放过广告就会知道,这个出价策略决定了广告主花多少钱、平台赚多少钱、什么样的用户会看到什么样的广告内容。

最近我看了一份技术报告,讲的是快手在出价这个环节的技术积累,简单好记,就叫它快手出价大模型,学术一点的名字是“生成式强化学习出价技术”。快手的同学告诉我,这项技术是快手首次提出,并且在大规模线上广告系统全面应用了,效果显著。

快手这家公司很有意思,用户和市值嗖嗖涨,但技术领域一直很低调,很多人以为这就是一个短视频公司呢。其实快手在 AI 时代有很多技术创新,比如基于 AI 大模型驱动的生成式推荐系统 OneRec,是行业里第一个工业级别的端到端推荐解决方案,快手的视频生成模型可灵也是全球顶级水准的。

这次快手推出的出价大模型,接管的是广告出价的事。这听起来像是工程师熬夜写出的黑魔法,但本质上,它和你我一样,要解决的是“今天怎么把钱花得刚刚好”的难题。

1

现在的广告系统早就不是传统的狂轰乱炸式,而是力求“与用户需求精确匹配”。

匹配的第一步,是广告主愿意为一次展示出多少钱——这就是出价。

如果出价太高,广告主的钱就会像开着窗户的空调,冷气哗哗往外跑,钱都浪费了;出价太低,抢不到流量,广告投不出去,等于做了无用功。平台要在“用户体验”和“商业效率”之间取得一种平衡,既不能让用户满眼都是广告,也不能让广告主颗粒无收。出价,就是这场平衡中的关键砝码。

2

为什么快手需要“大模型”为出价接管方向盘?

短视频平台的流量像天气:冷热交替、变幻无常。昨天热门话题还是开学季,今天就成了罗永浩大战西贝莜面村;人也是动态的,早上用户通勤,中午点外卖刷剧,晚上熬夜写方案;广告主的预算、转化率、ROI、CPA(获客成本)等都在变化中。传统的出价方法像是“靠经验炒股”,大致能对,也许会错,但很难又稳又准。

快手的出价算法其实经历了从 PID、MPC 到强化学习(RL)的三代演化路径。用个形象的比喻,这三代演进就是从定速巡航,到自适应巡航,再到“会开车的 AI 驾驶员”:

PID 是“差多少补多少”的即时纠偏。系统观察到目标与实际的偏差,用比例、积分、微分三项组合,立刻调节出价,追踪设定轨道,优点是简单稳健,缺点是对长周期、强约束和多变量耦合不够聪明。

MPC 则是“先看路况再选择踩油门还是刹车”的预测策略。先用系统模型对未来一小段时间进行滚动预测,在预算、CPA、ROI 等约束下求解一个最优控制序列,然后只执行当前一步,下一步再根据最新状态重算。好处是能处理约束与多目标;缺点是建模相对简单,容易陷入局部最优,本质上难以实现效果的根本性突破。

强化学习呢?就像根据专家的驾驶数据学习的 AI 驾驶员。通过分析海量历史驾驶数据(离线数据集),学习在特定状态下的最佳动作(出价),以最大化广告效果。

也就是说,强化学习的目标不只是下一秒是否舒适,而是一整天跑下来是不是省油、是不是准点到达。在广告系统里,这意味着:在预算、成本、竞争对手都不确定的情况下,每一次出价都影响下一次的选择,它是一个典型的序列决策问题。这种方法安全性高(不直接影响线上业务),还能够挖掘数据中蕴藏的更优策略。

3

有了强化学习,为什么还要“生成式”呢?因为“一小段时间的预测”显然是不够的。

传统强化学习虽然会“边走边学”,但多数还是单步思考:根据当前状态决定下一步。真实世界的出价更像下围棋——要看一整盘棋。这时,“生成式模型”就上场了。Transformer、Diffusion 等近年的主流方法,已在文本与图像任务中证明了它们擅长理解长序列、生成高质量轨迹。快手将二者融合,创新性提出了“生成式强化学习”,让出价模型在生成式的基础上,做 “多维思考”。

用大白话说就是:既要像人一样回看整段历史,也要像作家、画家那样“脑补(生成式)”可能的未来,然后选择当下该怎么走。

用一个通俗的“家庭记账”来比喻吧:

比如你今天有一笔预算(比如 1000 元),要在早、中、晚三个时段“买到最划算的菜”(转化)还要“控制每道菜的平均成本”(CPA/ROI)。市场上菜价(流量价格)波动大,竞争对手(其他广告)也在抢。

生成式强化学习怎么做呢?“先为今天的买菜行动做几个规划和设想:如果上午花多了,下午会怎么样,晚上怎么办;如果上午保守一点,晚上能不能冲一波”,然后使用生成式技术,像过电影一样预演几次(生成式模型),再决定当下的出价。这就是把“单步理性”升级为了“长程理性”。

4

生成式模型的两个重要方法是 Decision Transformer(DT)与 Diffusion Model。

Decision Transformer(DT)的架构如图所示:

DT 有点类似于大语言模型中的“下一词预测”(Next Token Prediction)。模型从许多优质投放记录里学习经验,结合你现在的场景,判断下一步该怎么出价最合算。

Diffusion Model 在做什么呢?简单来说,它像一位“AI 画家”。推理时,模型先把“未来”当成一团噪声,再在“状态、动作、奖励”等条件的指引下,一步步降噪,勾勒出可能的未来轨迹(比如接下来几小时的消耗与成本曲线)。有了这条“未来轨迹”,再结合历史表现,模型就能反推当下该出多高的价。这样一来,出价不再是只盯着当下,而是基于一整段可解释的“未来剧本”做决策。

5

问题还没完,使用生成模型直接建模出价策略,会踩到两个坑:

第一个是数据坑:只用历史数据“轻微试探”,很容易遇到 OOD(分布外)问题,模型学到的东西一到新场景就不灵了,所以必须有一种安全又有效的“离线探索”办法。

第二个是目标坑:生成模型擅长“把序列生成得漂亮”,却不擅长“让整段序列的业务指标最大化”(比如让一整天的 ROI 和 CPA 综合最优),因此容易与真实的优化目标偏离。

为了添这两个坑,快手做了两把“扳手”——GAVE 和 CBD。

1)GAVE 的全称是:Generative Auto-Bidding with Value-Guided Explorations

它要解决的问题是离线训练怎么“探索”才能安全又有效?

广告系统是“高压线路”,不能拿真实业务做大规模试错。所以快手采用离线强化学习,但离线数据里往往只有“过去做过的动作”,怎么跳出历史均值策略的天花板?

GAVE 的做法是引入价值函数当“海拔地图”,在 DT(Decision Transformer)的骨架上,重写了“回报到达(RTG)”的计分法,把 CPA/ROI 这类约束打散到每个时间步,让模型训练的目标和业务真实评分对齐;模型能在离线环境里安全而有效地探索,学到超过数据集中“人类历史水平”的策略。

线上做 A/B 测试显示,在不同投放约束下,消耗、预期消耗、CPA 的达标率都显著优于基线。

这套方案在 NeurIPS 2024 自动出价大赛里拿了冠军。

2)CBD 的全称是:Causal Auto-Bidding via Diffusion Completer-Aligner

它要解决的问题是如何让“生成的未来轨迹”既合法又符合用户偏好?

扩散模型天生会先加噪再去噪,像画家从一片雾里把画面擦出来。直接把它用于出价,会出现两类麻烦:

物理不合法:比如“剩余预算”应该只会递减,但模型可能生成“预算忽增”的离谱轨迹;

偏好不对齐:广告主说想控制一下 CPA,它却给你画出一条更像是要“冲量”的曲线。

CBD 的解法是把扩散流程拆成两步:

Completer:基于真实历史补全一段“合理的未来”,训练时让模型分得清什么是真实、什么是噪声,保证轨迹满足基本物理规律;

Aligner:在推理阶段对整段生成轨迹做“偏好对齐”,相当于最后一道门上锁,让它贴合 ROI/CPA 的业务目标。

最后,把这段“未来轨迹”和历史串起来,用逆动力学反推出当下的最优出价。

在线上验证后发现,同等算力下,CBD 仅增加约 6ms 的推理时间,却能带来更稳更好的效果。

6

和传统的自动出价的不同,快手出价大模型实现了从“单步调参”到“序列思考”。

现在市面上很多平台的自动出价还是“单步控制加一点短期预测”。快手的思路是“拿一整天当一盘大棋”。

传统方法像“把温度保持在 26℃”:热了就降一点,冷了就升一点;而生成式强化学习相当于“咱们先看看这栋楼今天的客流多少、天气阴晴、日照好不好、晚间活动多不多,然后再模拟一下场景,结合历史数据,决定每个时段怎么调节温度”。

它不仅更准,而且更可解释:你能看到它“脑补”的未来轨迹、对齐的偏好,以及最终的出价动作。对工程师和业务团队而言,这些细节都是透明的,远胜一个不讲理的黑箱模型。

7

好的技术产品,一定会带来多方价值。快手这个出价大模型,让广告主省钱又省心;让平台的推荐效率更高;让用户看到内容更舒适更有价值。

广告主过去投放像是守着控制台盯盘一样,时刻担心超预算、ROI 算不过来。出价大模型把“节奏感”找回来了:早高峰该保、晚高峰敢冲;预算在一天里用得均匀且更贴合目标。

平台的排序效率、收益分配会更稳。模型在设定好的用户体验舒适区内,把广告与自然内容的关系处理得更细腻。

作为用户看到的广告更“像是为你而来”。不是更“多”,而是更相关、更舒服。

精确的数字是最朴素的语言。2025 年至今,快手将生成式强化学习出价技术全面落地在广告系统,为平台实现了超过 3% 的广告收入提升。

8

写到这儿,我特别想替这类技术说句公道话:它的目标显然不是把广告塞得更满,而是把资源用得更好。一个好的出价系统,让广告主不再焦虑、平台不再粗放、用户不再被打扰。

今天我们谈快手“出价大模型”,不是为了把“大模型”三个字抬得多高,而是希望它成为“把钱花在该花的地方”的那只手。工程师们把生成式与强化学习创新性结合在一起,只是为了让系统更像一个有经验、守边界、讲分寸的老司机——知道什么时候该稳、什么时候能冲。

我想,这是技术该有的样子。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

快手 广告出价 大模型 生成式AI 强化学习 Kuaishou Ad Bidding Large Model Generative AI Reinforcement Learning
相关文章