成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
最优策略
关注
0
最优策略亦称“平衡策略”、“稳定策略”。在对策中,能够形成平衡局势的局中人的策略。最优策略构成对策的解。它根据局中人选取策略的形式是有目的地选取,还是根据一定的概率值随机地选取,分成最优纯策略和最优混合策略两类。在有鞍点的矩阵对策中,参与对策的局中人根据鞍点选取并构成平衡局势的策略为最优纯策略。在没有鞍点的矩阵决策中,参与对策的局中人的最优策略为最优混合决策。
综合
百科
VIP
热门
动态
论文
精华
Quantifying the Performance Gap for Simple Versus Optimal Dynamic Server Allocation Policies
Arxiv
0+阅读 · 3月22日
A General Control-Theoretic Approach for Reinforcement Learning: Theory and Algorithms
Arxiv
0+阅读 · 3月31日
The Pandora's Box Problem with Sequential Inspections
Arxiv
0+阅读 · 4月2日
Central Limit Theorems for Transition Probabilities of Controlled Markov Chains
Arxiv
0+阅读 · 3月25日
A Solicit-Then-Suggest Model of Agentic Purchasing
Arxiv
0+阅读 · 3月21日
Recruiting Heterogeneous Crowdsource Vehicles for Updating a High-definition Map
Arxiv
0+阅读 · 3月28日
Learning vs. Optimizing Bidders in Budgeted Auctions
Arxiv
0+阅读 · 4月9日
On the equivalence of semidefinite programming and zero-sum semidefinite games
Arxiv
0+阅读 · 4月24日
Cost-optimal Sequential Testing via Doubly Robust Q-learning
Arxiv
0+阅读 · 4月13日
Sample Complexity Bounds for Stochastic Shortest Path with a Generative Model
Arxiv
0+阅读 · 4月17日
Offline Dynamic Inventory and Pricing Strategy: Addressing Censored and Dependent Demand
Arxiv
0+阅读 · 3月11日
Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data
Arxiv
0+阅读 · 3月9日
Synthetic Monitoring Environments for Reinforcement Learning
Arxiv
0+阅读 · 3月6日
Non-Rectangular Average-Reward Robust MDPs: Optimal Policies and Their Transient Values
Arxiv
0+阅读 · 3月10日
Remote State Estimation over Unreliable Channels with Unreliable Feedback: Strategies and Limits
Arxiv
0+阅读 · 2月22日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top