Bayesian Off-Policy Evaluation and Learning for Large Action Spaces

In interactive systems, actions are often correlated, presenting an opportunity for more sample-efficient off-policy evaluation (OPE) and learning (OPL) in large action spaces. We introduce a unified Bayesian framework to capture these correlations through structured and informative priors. In this framework, we propose sDM, a generic Bayesian approach designed for OPE and OPL, grounded in both algorithmic and theoretical foundations. Notably, sDM leverages action correlations without compromising computational efficiency. Moreover, inspired by online Bayesian bandits, we introduce Bayesian metrics that assess the average performance of algorithms across multiple problem instances, deviating from the conventional worst-case assessments. We analyze sDM in OPE and OPL, highlighting the benefits of leveraging action correlations. Empirical evidence showcases the strong performance of sDM.

翻译：在交互系统中，动作之间往往存在相关性，这为在大动作空间中进行更具样本效率的离策略评估（OPE）与离策略学习（OPL）提供了契机。我们提出一个统一的贝叶斯框架，通过结构化的信息先验来捕捉这些相关性。在该框架下，我们提出sDM，一种基于算法与理论基础的通用贝叶斯方法，专为OPE和OPL设计。值得注意的是，sDM在利用动作相关性的同时，不牺牲计算效率。此外，受在线贝叶斯多臂老虎机启发，我们引入贝叶斯度量，用于评估算法在多个问题实例上的平均性能，这与传统的基于最坏情况的评估方式不同。我们从OPE和OPL两个角度分析了sDM，强调了利用动作相关性的优势。实验证据表明sDM具有强大的性能。

相关内容

SDM

关注 11

数据挖掘是从数据中发现有价值的知识的计算过程，是现代数据科学的核心。它在许多领域有着巨大的应用，包括科学、工程、医疗保健、商业和医学。这些字段中的典型数据集是大的、复杂的，而且通常是有噪声的。从这些数据集中提取知识需要使用复杂的、高性能的、有原则的分析技术和算法。这些技术反过来又需要在高性能计算基础设施上的实现，这些基础设施需要经过仔细的性能调优。强大的可视化技术和有效的用户界面对于使数据挖掘工具吸引来自不同学科的研究人员、分析师、数据科学家和应用程序开发人员以及利益相关者的可用性也至关重要。SDM确立了自己在数据挖掘领域的领先地位，并为解决这些问题的研究人员提供了一个在同行评审论坛上展示其工作的场所。SDM强调原则方法和坚实的数学基础，以其高质量和高影响力的技术论文而闻名，并提供强大的研讨会和教程程序(包括在会议注册中)。官网地址：http://dblp.uni-trier.de/db/conf/sdm/

【NeurIPS2021】用于文本图表示学习的 GNN 嵌套 Transformer 模型：GraphFormers

专知会员服务

46+阅读 · 2021年11月24日

UCM《机器学习导论笔记》，80页pdf CSE176 Introduction to Machine Learning

专知会员服务

32+阅读 · 2021年9月29日

FlowQA: Grasping Flow in History for Conversational Machine Comprehension

专知会员服务

34+阅读 · 2019年10月18日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日