With the rapid development of e-commerce, auto-bidding has become a key asset in optimizing advertising performance under diverse advertiser environments. The current approaches focus on reinforcement learning (RL) and generative models. These efforts imitate offline historical behaviors by utilizing a complex structure with expensive hyperparameter tuning. The suboptimal trajectories further exacerbate the difficulty of policy learning. To address these challenges, we proposes QGA, a novel Q-value regularized Generative Auto-bidding method. In QGA, we propose to plug a Q-value regularization with double Q-learning strategy into the Decision Transformer backbone. This design enables joint optimization of policy imitation and action-value maximization, allowing the learned bidding policy to both leverage experience from the dataset and alleviate the adverse impact of the suboptimal trajectories. Furthermore, to safely explore the policy space beyond the data distribution, we propose a Q-value guided dual-exploration mechanism, in which the DT model is conditioned on multiple return-to-go targets and locally perturbed actions. This entire exploration process is dynamically guided by the aforementioned Q-value module, which provides principled evaluation for each candidate action. Experiments on public benchmarks and simulation environments demonstrate that QGA consistently achieves superior or highly competitive results compared to existing alternatives. Notably, in large-scale real-world A/B testing, QGA achieves a 3.27% increase in Ad GMV and a 2.49% improvement in Ad ROI.


翻译:随着电子商务的快速发展,自动竞价已成为在不同广告主环境下优化广告效果的关键工具。当前方法主要聚焦于强化学习与生成模型。这些工作通过采用复杂结构并依赖昂贵的超参数调优来模仿离线历史行为。次优轨迹进一步加剧了策略学习的难度。为应对这些挑战,本文提出QGA,一种新颖的Q值正则化生成式自动竞价方法。在QGA中,我们提出将基于双重Q学习策略的Q值正则化模块嵌入Decision Transformer主干网络。该设计实现了策略模仿与动作价值最大化的联合优化,使得习得的竞价策略既能利用数据集中的经验,又能减轻次优轨迹的负面影响。此外,为安全探索数据分布之外的策略空间,我们提出一种Q值引导的双重探索机制,其中DT模型以多个回报目标与局部扰动动作为条件进行训练。整个探索过程由前述Q值模块动态引导,该模块为每个候选动作提供原则性评估。在公开基准与仿真环境上的实验表明,相较于现有方法,QGA始终取得更优或极具竞争力的结果。值得注意的是,在大规模真实世界A/B测试中,QGA实现了广告商品交易总额3.27%的提升与广告投资回报率2.49%的改善。

0
下载
关闭预览

相关内容

在数学,统计学和计算机科学中,尤其是在机器学习和逆问题中,正则化是添加信息以解决不适定问题或防止过度拟合的过程。 正则化适用于不适定的优化问题中的目标函数。
文本、视觉与语音生成的自动化评估方法综述
专知会员服务
20+阅读 · 2025年6月15日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
【CTH博士论文】基于强化学习的自动驾驶决策,149页pdf
专知会员服务
59+阅读 · 2023年2月18日
专知会员服务
17+阅读 · 2020年12月4日
强化学习开篇:Q-Learning原理详解
AINLP
37+阅读 · 2020年7月28日
从动力学角度看优化算法:GAN的第三个阶段
PaperWeekly
11+阅读 · 2019年5月13日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
入门 | 通过 Q-learning 深入理解强化学习
机器之心
12+阅读 · 2018年4月17日
入门 | 从Q学习到DDPG,一文简述多种强化学习算法
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月3日
Arxiv
0+阅读 · 1月23日
VIP会员
相关VIP内容
文本、视觉与语音生成的自动化评估方法综述
专知会员服务
20+阅读 · 2025年6月15日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
【CTH博士论文】基于强化学习的自动驾驶决策,149页pdf
专知会员服务
59+阅读 · 2023年2月18日
专知会员服务
17+阅读 · 2020年12月4日
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员