Identifiable Latent Bandits: Leveraging observational data for personalized decision-making - 专知论文

会员服务 ·

0

辨识 · 最优 · 决策算法 · 样本 · 极大 ·

Identifiable Latent Bandits: Leveraging observational data for personalized decision-making

翻译：可辨识潜变量老虎机：利用观测数据实现个性化决策

Ahmet Zahid Balcıoğlu,Newton Mwai,Emil Carlsson,Fredrik D. Johansson

from arxiv, 35 pages, 21 figures

Sequential decision-making algorithms such as multi-armed bandits can find optimal personalized decisions, but are notoriously sample-hungry. In personalized medicine, for example, training a bandit from scratch for every patient is typically infeasible, as the number of trials required is much larger than the number of decision points for a single patient. To combat this, latent bandits offer rapid exploration and personalization beyond what context variables alone can offer, provided that a latent variable model of problem instances can be learned consistently. However, existing works give no guidance as to how such a model can be found. In this work, we propose an identifiable latent bandit framework that leads to optimal decision-making with a shorter exploration time than classical bandits by learning from historical records of decisions and outcomes. Our method is based on nonlinear independent component analysis that provably identifies representations from observational data sufficient to infer optimal actions in new bandit instances. We verify this strategy in simulated and semi-synthetic environments, showing substantial improvement over online and offline learning baselines when identifying conditions are satisfied.

翻译：序贯决策算法（如多臂老虎机）能够找到最优个性化决策，但其样本需求量极大。以个性化医疗为例，为每位患者从头训练老虎机通常不可行，因为所需试验次数远大于单个患者的决策点数量。为此，潜变量老虎机通过利用问题实例的潜变量模型实现快速探索与个性化——其能力远超仅依赖上下文变量的方法，但前提是该模型能被一致地学习。然而，现有研究并未给出如何找到此类模型的指导。本文提出一种可辨识潜变量老虎机框架，通过学习历史决策与结果记录，在比经典老虎机更短的探索时间内实现最优决策。该方法基于非线性独立成分分析，可从观测数据中可辨识地提取表征，这些表征足以推断新老虎机实例中的最优行动。我们在仿真与半合成环境中验证了该策略，当可辨识条件满足时，其性能显著优于在线与离线学习基线。

0

相关内容

《结构化部分可观测下的序贯决策研究》2026年300页

《结构化部分可观测下的序贯决策研究》2026年300页

专知会员服务

16+阅读 · 7月11日

《战略智能体与有限反馈下的序贯决策》211页

《战略智能体与有限反馈下的序贯决策》211页

专知会员服务

37+阅读 · 2025年5月7日

【斯坦福大学博士论文】基于数据的序列决策制定，通过理解并采纳理性行为，193页pdf

【斯坦福大学博士论文】基于数据的序列决策制定，通过理解并采纳理性行为，193页pdf

专知会员服务

38+阅读 · 2023年10月8日

【普林斯顿博士论文】潜变量下的机器学习与优化，239页pdf

【普林斯顿博士论文】潜变量下的机器学习与优化，239页pdf

专知会员服务

39+阅读 · 2023年8月1日

【DTU博士论文】面向自然语言处理的深度潜变量模型，232页pdf

【DTU博士论文】面向自然语言处理的深度潜变量模型，232页pdf

专知会员服务

21+阅读 · 2022年12月22日

中科院自动化所最新《分布式深度强化学习DDRL》综述，14页pdf阐述DDRL与多玩家多智能体学习工具箱

中科院自动化所最新《分布式深度强化学习DDRL》综述，14页pdf阐述DDRL与多玩家多智能体学习工具箱

专知会员服务

41+阅读 · 2022年12月2日

基于深度强化学习的作战辅助决策研究

基于深度强化学习的作战辅助决策研究

专知会员服务

173+阅读 · 2022年6月8日

基于决策树模型重用的分布变化流数据学习

专知会员服务

24+阅读 · 2021年1月30日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

【2020密歇根大学论文】基于学习的序列决策算法的公平性综述论文，Fairness in Learning-Based Sequential Decision Algorithms: A Survey

【2020密歇根大学论文】基于学习的序列决策算法的公平性综述论文，Fairness in Learning-Based Sequential Decision Algorithms: A Survey

专知会员服务

23+阅读 · 2020年1月15日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

39+阅读 · 2023年4月13日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

33+阅读 · 2022年10月17日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

强化学习初探 - 从多臂老虎机问题说起

强化学习初探 - 从多臂老虎机问题说起

专知

10+阅读 · 2018年4月3日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

群体偏好的敏感性度量方法研究和群决策方法的可实施性评价

国家自然科学基金

0+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

进化算法行为分析及应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

大数据环境下基于多源数据协同的个性化服务关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

泛在计算环境中社会化驱动的情境感知个性化信息服务研究

国家自然科学基金

2+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

Multi-User Dueling Bandits: A Fair Approach using Nash Social Welfare

Arxiv

0+阅读 · 6月13日

Latent Geometric Chords for Query-Efficient Decision-Based Adversarial Attacks

Arxiv

0+阅读 · 6月10日

Discovering Interpretable Multi-Parameter Control Policies for Evolutionary Algorithms Using Deep Reinforcement Learning

Arxiv

0+阅读 · 6月8日

Online Learning with Recency: Algorithms for Sliding-window Streaming Multi-armed Bandits

Arxiv

0+阅读 · 6月8日

Uncertainty quantification and multi-stage variable selection for personalized treatment regimes

Arxiv

0+阅读 · 6月4日

Neural Variance-aware Dueling Bandits with Deep Representation and Shallow Exploration

Arxiv

0+阅读 · 6月3日

Preference-Aware Rubric Learning for Personalized Evaluation

Arxiv

0+阅读 · 5月29日

TRUST-TAEA: A trustworthiness-guided two-archive evolutionary algorithm with variable-grouping sparse search for large-scale multi-objective optimization

Arxiv

0+阅读 · 5月26日

Beyond Action Residuals: Real-World Robot Policy Steering via Bottleneck Latent Reinforcement Learning

Arxiv

0+阅读 · 5月19日

Provable Quantization with Randomized Hadamard Transform

Arxiv

0+阅读 · 5月13日

VIP会员

文章信息

相关主题

最新内容

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

专知会员服务

2+阅读 · 今天7:13

俄乌无人机战争的六大启示

俄乌无人机战争的六大启示

专知会员服务

4+阅读 · 今天7:07

《无人机空中监控：通信实验洞察》

《无人机空中监控：通信实验洞察》

专知会员服务

3+阅读 · 今天7:05

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

专知会员服务

3+阅读 · 今天6:59

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

12+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

10+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

12+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

6+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

10+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

8+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

9+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

8+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

6+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

相关VIP内容

《结构化部分可观测下的序贯决策研究》2026年300页

《结构化部分可观测下的序贯决策研究》2026年300页

专知会员服务

16+阅读 · 7月11日

《战略智能体与有限反馈下的序贯决策》211页

《战略智能体与有限反馈下的序贯决策》211页

专知会员服务

37+阅读 · 2025年5月7日

【斯坦福大学博士论文】基于数据的序列决策制定，通过理解并采纳理性行为，193页pdf

【斯坦福大学博士论文】基于数据的序列决策制定，通过理解并采纳理性行为，193页pdf

专知会员服务

38+阅读 · 2023年10月8日

【普林斯顿博士论文】潜变量下的机器学习与优化，239页pdf

【普林斯顿博士论文】潜变量下的机器学习与优化，239页pdf

专知会员服务

39+阅读 · 2023年8月1日

【DTU博士论文】面向自然语言处理的深度潜变量模型，232页pdf

【DTU博士论文】面向自然语言处理的深度潜变量模型，232页pdf

专知会员服务

21+阅读 · 2022年12月22日

中科院自动化所最新《分布式深度强化学习DDRL》综述，14页pdf阐述DDRL与多玩家多智能体学习工具箱

中科院自动化所最新《分布式深度强化学习DDRL》综述，14页pdf阐述DDRL与多玩家多智能体学习工具箱

专知会员服务

41+阅读 · 2022年12月2日

基于深度强化学习的作战辅助决策研究

基于深度强化学习的作战辅助决策研究

专知会员服务

173+阅读 · 2022年6月8日

基于决策树模型重用的分布变化流数据学习

专知会员服务

24+阅读 · 2021年1月30日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

【2020密歇根大学论文】基于学习的序列决策算法的公平性综述论文，Fairness in Learning-Based Sequential Decision Algorithms: A Survey

【2020密歇根大学论文】基于学习的序列决策算法的公平性综述论文，Fairness in Learning-Based Sequential Decision Algorithms: A Survey

专知会员服务

23+阅读 · 2020年1月15日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌无人机战争的六大启示

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《无人机空中监控：通信实验洞察》

相关资讯

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

39+阅读 · 2023年4月13日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

33+阅读 · 2022年10月17日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

强化学习初探 - 从多臂老虎机问题说起

强化学习初探 - 从多臂老虎机问题说起

专知

10+阅读 · 2018年4月3日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

相关论文

Multi-User Dueling Bandits: A Fair Approach using Nash Social Welfare

Arxiv

0+阅读 · 6月13日

Latent Geometric Chords for Query-Efficient Decision-Based Adversarial Attacks

Arxiv

0+阅读 · 6月10日

Discovering Interpretable Multi-Parameter Control Policies for Evolutionary Algorithms Using Deep Reinforcement Learning

Arxiv

0+阅读 · 6月8日

Online Learning with Recency: Algorithms for Sliding-window Streaming Multi-armed Bandits

Arxiv

0+阅读 · 6月8日

Uncertainty quantification and multi-stage variable selection for personalized treatment regimes

Arxiv

0+阅读 · 6月4日

Neural Variance-aware Dueling Bandits with Deep Representation and Shallow Exploration

Arxiv

0+阅读 · 6月3日

Preference-Aware Rubric Learning for Personalized Evaluation

Arxiv

0+阅读 · 5月29日

TRUST-TAEA: A trustworthiness-guided two-archive evolutionary algorithm with variable-grouping sparse search for large-scale multi-objective optimization

Arxiv

0+阅读 · 5月26日

Beyond Action Residuals: Real-World Robot Policy Steering via Bottleneck Latent Reinforcement Learning

Arxiv

0+阅读 · 5月19日

Provable Quantization with Randomized Hadamard Transform

Arxiv

0+阅读 · 5月13日

相关基金

群体偏好的敏感性度量方法研究和群决策方法的可实施性评价

国家自然科学基金

0+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

进化算法行为分析及应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

大数据环境下基于多源数据协同的个性化服务关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

泛在计算环境中社会化驱动的情境感知个性化信息服务研究

国家自然科学基金

2+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员