Bid shading plays a crucial role in Real-Time Bidding (RTB) by adaptively adjusting the bid to avoid advertisers overspending. Existing mainstream two-stage methods, which first model bid landscapes and then optimize surplus using operations research techniques, are constrained by unimodal assumptions that fail to adapt for non-convex surplus curves and are vulnerable to cascading errors in sequential workflows. Additionally, existing discretization models of continuous values ignore the dependence between discrete intervals, reducing the model's error correction ability, while sample selection bias in bidding scenarios presents further challenges for prediction. To address these issues, this paper introduces Generative Bid Shading (GBS), which comprises two primary components: 1) an end-to-end generative model that utilizes an autoregressive approach to generate shading ratios by stepwise residuals, capturing complex value dependencies without relying on predefined priors; and 2) a reward preference alignment system, which incorporates a channel-aware hierarchical dynamic network (CHNet) as the reward model to extract fine-grained features, along with modules for surplus optimization and exploration utility reward alignment, ultimately optimizing both short-term and long-term surplus using group relative policy optimization (GRPO). Extensive experiments on both offline and online A/B tests validate GBS's effectiveness. Moreover, GBS has been deployed on the Meituan DSP platform, serving billions of bid requests daily.


翻译:出价调优在实时竞价(RTB)中发挥着至关重要的作用,它通过自适应调整出价来避免广告主超支。现有的主流两阶段方法——首先建模出价分布,然后利用运筹学技术优化盈余——受限于单峰假设,无法适应非凸的盈余曲线,且在串行工作流中容易产生级联误差。此外,现有对连续值的离散化模型忽略了离散区间之间的依赖关系,降低了模型的纠错能力,而竞价场景中的样本选择偏差也给预测带来了进一步挑战。为解决这些问题,本文提出了生成式出价调优(GBS),其包含两个主要组成部分:1)一个端到端的生成模型,利用自回归方法通过逐步残差生成调优比率,无需依赖预定义先验即可捕获复杂的价值依赖关系;2)一个奖励偏好对齐系统,该系统采用通道感知的层次动态网络(CHNet)作为奖励模型以提取细粒度特征,并结合盈余优化模块和探索效用奖励对齐模块,最终使用组相对策略优化(GRPO)来同时优化短期和长期盈余。大量的离线和在线A/B测试实验验证了GBS的有效性。此外,GBS已在美团DSP平台部署,每日处理数十亿次出价请求。

0
下载
关闭预览

相关内容

提示调优综述
专知会员服务
18+阅读 · 2025年7月10日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
【ICLR2025】DynaPrompt:动态测试时提示调优
专知会员服务
10+阅读 · 2025年2月2日
【ICML 2024】零阶优化器微调大模型,大幅降低内存
专知会员服务
32+阅读 · 2024年7月8日
南大《优化方法 (Optimization Methods》课程,推荐!
专知会员服务
80+阅读 · 2022年4月3日
专知会员服务
21+阅读 · 2020年10月4日
最全推荐系统Embedding召回算法总结
凡人机器学习
30+阅读 · 2020年7月5日
详解ORB-SLAM2中的特征均匀提取策略
计算机视觉life
11+阅读 · 2019年10月9日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月17日
Arxiv
0+阅读 · 2月12日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(简介)
专知会员服务
3+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
10+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
2+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
1+阅读 · 4月12日
相关VIP内容
提示调优综述
专知会员服务
18+阅读 · 2025年7月10日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
【ICLR2025】DynaPrompt:动态测试时提示调优
专知会员服务
10+阅读 · 2025年2月2日
【ICML 2024】零阶优化器微调大模型,大幅降低内存
专知会员服务
32+阅读 · 2024年7月8日
南大《优化方法 (Optimization Methods》课程,推荐!
专知会员服务
80+阅读 · 2022年4月3日
专知会员服务
21+阅读 · 2020年10月4日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员