Auto-bidding systems aim to maximize marketing value while satisfying strict efficiency constraints such as Target Cost-Per-Action (CPA). Although Decision Transformers provide powerful sequence modeling capabilities, applying them to this constrained setting encounters two challenges: 1) standard Return-to-Go conditioning causes state aliasing by neglecting the cost dimension, preventing precise resource pacing; and 2) standard regression forces the policy to mimic average historical behaviors, thereby limiting the capacity to optimize performance toward the constraint boundary. To address these challenges, we propose PRO-Bid, a constraint-aware generative auto-bidding framework based on two synergistic mechanisms: 1) Constraint-Decoupled Pareto Representation (CDPR) decomposes global constraints into recursive cost and value contexts to restore resource perception, while reweighting trajectories based on the Pareto frontier to focus on high-efficiency data; and 2) Counterfactual Regret Optimization (CRO) facilitates active improvement by utilizing a global outcome predictor to identify superior counterfactual actions. By treating these high-utility outcomes as weighted regression targets, the model transcends historical averages to approach the optimal constraint boundary. Extensive experiments on two public benchmarks and online A/B tests demonstrate that PRO-Bid achieves superior constraint satisfaction and value acquisition compared to state-of-the-art baselines.


翻译:自动竞价系统旨在最大化营销价值,同时满足严格的效率约束,如目标每次行动成本(Target Cost-Per-Action, CPA)。尽管决策Transformer(Decision Transformers)提供了强大的序列建模能力,将其应用于这种约束场景仍面临两大挑战:1)标准的"回报-目标"(Return-to-Go)条件设定忽略了成本维度,导致状态混淆,阻碍了精确的资源调控;2)标准的回归方法迫使策略模仿平均历史行为,从而限制了向约束边界优化性能的能力。为解决这些挑战,我们提出了PRO-Bid,一个基于两种协同机制的约束感知生成式自动竞价框架:1)约束解耦帕累托表示(Constraint-Decoupled Pareto Representation, CDPR)将全局约束分解为递归的成本与价值上下文以恢复资源感知,同时基于帕累托前沿对轨迹进行重加权,以聚焦于高效数据;2)反事实遗憾优化(Counterfactual Regret Optimization, CRO)通过利用全局结果预测器识别更优的反事实行动,以促进主动性能提升。通过将这些高效用结果作为加权回归目标,模型得以超越历史平均水平,逼近最优约束边界。在两个公开基准和在线A/B测试上的大量实验表明,与最先进的基线方法相比,PRO-Bid在约束满足和价值获取方面均实现了更优的性能。

0
下载
关闭预览

相关内容

用于自动驾驶系统测试的生成式人工智能:综述
专知会员服务
17+阅读 · 2025年8月28日
【CTH博士论文】基于强化学习的自动驾驶决策,149页pdf
专知会员服务
59+阅读 · 2023年2月18日
【KDD2020-Tutorial】自动推荐系统,Automated Recommendation System
自动结构变分推理,Automatic structured variational inference
专知会员服务
41+阅读 · 2020年2月10日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
自动驾驶技术解读——自动驾驶汽车决策控制系统
智能交通技术
30+阅读 · 2019年7月7日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月9日
VIP会员
相关VIP内容
用于自动驾驶系统测试的生成式人工智能:综述
专知会员服务
17+阅读 · 2025年8月28日
【CTH博士论文】基于强化学习的自动驾驶决策,149页pdf
专知会员服务
59+阅读 · 2023年2月18日
【KDD2020-Tutorial】自动推荐系统,Automated Recommendation System
自动结构变分推理,Automatic structured variational inference
专知会员服务
41+阅读 · 2020年2月10日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员