关闭引导
快手披露“生成式强化学习”出价技术,带动广告收入提升逾3%
2025-09-23 15:05:00
广州日报新花城

近期,快手公开其在广告自动出价领域的技术突破——将生成式模型与强化学习融合,提出并工程化落地“生成式强化学习”范式。该公司披露,相关技术在不降低广告主既定成本目标的前提下,为平台带来超过3%的广告收入增长。

广告自动出价是实时竞价(RTB)系统中的核心问题,需在预算约束与转化效率之间做序列化决策。快手商业化算法团队将出价技术发展分为四代:从经典的PID控制、基于模型预测控制(MPC),到强化学习(RL),再到此次提出的生成式强化学习。新范式旨在让出价模型“多维思考”,更充分利用历史出价序列信息以做出长期价值导向的决策。


实时出价系统流程示意图

快手相关团队提出两类关键算法:GAVE(Generative Auto-bidding with Value-Guided Explorations)和CBD(Causal auto-Bidding based on Diffusion completer-aligner)。GAVE通过引入基于得分的RTG(Return-to-Go)约束和价值函数驱动的探索策略,解决生成模型在目标对齐与数据局限上的问题;CBD则以扩散模型为基础,设计Completer(序列补全)与Aligner(偏好对齐)模块,提升生成轨迹的一致性并将生成结果与广告主目标对齐。


GAVE 算法架构图

在离线基准与线上A/B测试中,两种方法均显示出相对现有基线的性能优势:GAVE在多种预算与场景下取得更优表现;CBD在保证相近成本的条件下,将广告主平均转化率提升约2%,并在生产环境中以可接受的微量延迟换取显著商业价值。

快手表示,此类技术进步并非纯学术成果,而已从顶会竞赛成绩逐步向实际业务转化。团队在NeurIPS等国际赛事中获奖并将研究成果部署于大规模广告系统,推动了平台营销服务收入的持续增长。未来,快手计划进一步构建“出价基座大模型”与“出价推理大模型”,强化跨场景通用性与可解释性,推动自动出价向更高智能化迈进。

文/广州日报新花城记者:贺涵甫
广州日报新花城编辑:麦晓颖

@新花城 版权所有 转载需经授权