We develop horizon-aware anytime-valid tests and confidence sequences for bounded means under a strict deadline $N$. Using the betting/e-process framework, we cast horizon-aware betting as a finite-horizon optimal control problem with state space $(t, \log W_t)$, where $t$ is the time and $W_t$ is the test martingale value. We first show that in certain interior regions of the state space, policies that deviate significantly from Kelly betting are provably suboptimal, while Kelly betting reaches the threshold with high probability. We then identify sufficient conditions showing that outside this region, more aggressive betting than Kelly can be better if the bettor is behind schedule, and less aggressive can be better if the bettor is ahead. Taken together these results suggest a simple phase diagram in the $(t, \log W_t)$ plane, delineating regions where Kelly, fractional Kelly, and aggressive betting may be preferable. Guided by this phase diagram, we introduce a Deep Reinforcement Learning approach based on a universal Deep Q-Network (DQN) agent that learns a single policy from synthetic experience and maps simple statistics of past observations to bets across horizons and null values. In limited-horizon experiments, the learned DQN policy yields state-of-the-art results.


翻译:我们针对严格截止时间$N$下的有界均值,发展了具有时域感知能力的实时检验方法与置信序列。通过利用投注/e过程框架,我们将时域感知投注建模为状态空间为$(t, \log W_t)$的有限时域最优控制问题,其中$t$表示时间,$W_t$为检验鞅值。首先证明:在状态空间的某些内部区域中,显著偏离Kelly投注的策略在理论上是次优的,而Kelly投注能以高概率达到阈值。随后给出充分条件表明:在该区域外,当投注者落后于进度时,采用比Kelly更激进的投注策略可能更优;当投注者领先时,采用比Kelly更保守的策略可能更佳。综合这些结论,我们提出$(t, \log W_t)$平面上的简单相图,划分出Kelly投注、分数Kelly投注与激进投注各自可能更优的区域。基于该相图,我们引入一种深度强化学习方法,采用通用深度Q网络(DQN)智能体从合成经验中学习单一策略,将历史观测的简单统计量映射为跨不同时域与零假设值的投注决策。在有限时域实验中,习得的DQN策略获得了最先进的结果。

0
下载
关闭预览

相关内容

【ICML2025】时序分布漂移下的自适应估计与学习
专知会员服务
13+阅读 · 2025年5月25日
ETP:精确时序动作定位
极市平台
13+阅读 · 2018年5月25日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
综述:深度学习时代的目标检测算法
极市平台
27+阅读 · 2018年3月17日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
4+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
【ICML2025】时序分布漂移下的自适应估计与学习
专知会员服务
13+阅读 · 2025年5月25日
相关资讯
ETP:精确时序动作定位
极市平台
13+阅读 · 2018年5月25日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
综述:深度学习时代的目标检测算法
极市平台
27+阅读 · 2018年3月17日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员