最优策略论文 - 专知

会员服务 ·

最优策略

最优策略亦称“平衡策略”、“稳定策略”。在对策中，能够形成平衡局势的局中人的策略。最优策略构成对策的解。它根据局中人选取策略的形式是有目的地选取，还是根据一定的概率值随机地选取，分成最优纯策略和最优混合策略两类。在有鞍点的矩阵对策中，参与对策的局中人根据鞍点选取并构成平衡局势的策略为最优纯策略。在没有鞍点的矩阵决策中，参与对策的局中人的最优策略为最优混合决策。

Anytime-valid Optimal Policy Identification

Arxiv

0+阅读 · 6月16日

Learning Fair Pareto-Optimal Policies in Multi-Objective Reinforcement Learning

Arxiv

0+阅读 · 6月16日

Know Thy Reasoner: Not All Language Models Explore Alike

Arxiv

0+阅读 · 6月15日

Safe Exploration via Policy Priors

Arxiv

0+阅读 · 6月15日

Learning optimal policies from event logs through reinforcement learning: a comparison of deep and MDP-based approaches

Arxiv

0+阅读 · 6月12日

Value Functions for Temporal Logic: Optimal Policies and Safety Filters

Arxiv

0+阅读 · 5月1日

Minimax Optimal Strategy for Delayed Observations in Online Reinforcement Learning

Arxiv

0+阅读 · 6月2日

Optimal Policy Learning under Budget and Coverage Constraints

Arxiv

0+阅读 · 5月12日

Mind the Sim-to-Real Gap & Think Like a Scientist

Arxiv

0+阅读 · 5月20日

From AoI to QVAoI: Query-Based Semantics-Aware Scheduling for Energy-Harvesting IoT Systems

Arxiv

0+阅读 · 5月6日

Minimax-Optimal Policy Regret in Partially Observable Markov Games

Arxiv

0+阅读 · 6月1日

The Vote-Left Equilibrium: A Deterministic Coordination Strategy for the Faithful in The Traitors

Arxiv

0+阅读 · 5月11日

Quantifying the Performance Gap for Simple Versus Optimal Dynamic Server Allocation Policies

Arxiv

0+阅读 · 3月22日

A General Control-Theoretic Approach for Reinforcement Learning: Theory and Algorithms

Arxiv

0+阅读 · 3月31日

The Pandora's Box Problem with Sequential Inspections

Arxiv

0+阅读 · 4月2日

参考链接

微信扫码咨询专知VIP会员