Finite and Corruption-Robust Regret Bounds in Online Inverse Linear Optimization under M-Convex Action Sets - 专知论文

会员服务 ·

0

在线 · 最优 · 优化问题 · 可行 · 情境 ·

Finite and Corruption-Robust Regret Bounds in Online Inverse Linear Optimization under M-Convex Action Sets

翻译：有限且抗破坏的在线逆线性优化中基于M-凸行动集的遗憾界

Taihei Oki,Shinsaku Sakaue

We study online inverse linear optimization, also known as contextual recommendation, where a learner sequentially infers an agent's hidden objective vector from observed optimal actions over feasible sets that change over time. The learner aims to recommend actions that perform well under the agent's true objective, and the performance is measured by the regret, defined as the cumulative gap between the agent's optimal values and those achieved by the learner's recommended actions. Prior work has established a regret bound of $O(d\log T)$, as well as a finite but exponentially large bound of $\exp(O(d\log d))$, where $d$ is the dimension of the optimization problem and $T$ is the time horizon, while a regret lower bound of $Ω(d)$ is known (Gollapudi et al. 2021; Sakaue et al. 2025). Whether a finite regret bound polynomial in $d$ is achievable or not has remained an open question. We partially resolve this by showing that when the feasible sets are M-convex -- a broad class that includes matroids -- a finite regret bound of $O(d\log d)$ is possible. We achieve this by combining a structural characterization of optimal solutions on M-convex sets with a geometric volume argument. Moreover, we extend our approach to adversarially corrupted feedback in up to $C$ rounds. We obtain a regret bound of $O((C+1)d\log d)$ without prior knowledge of $C$, by monitoring directed graphs induced by the observed feedback to detect corruptions adaptively.

翻译：我们研究在线逆线性优化问题，也称为情境推荐问题：学习者需从随时间变化的可行集上观察到的代理最优行动中，逐步推断该代理的隐藏目标向量。学习者的目标是在代理真实目标下推荐表现良好的行动，其性能通过遗憾值衡量，即代理最优值与学习者推荐行动所得累积差距。已有研究建立了$O(d\log T)$的遗憾界，以及指数级增长但有界的$\exp(O(d\log d))$界（其中$d$为优化问题维度，$T$为时间范围），同时已知遗憾下界为$\Omega(d)$（Gollapudi等，2021；Sakaue等，2025）。遗憾界能否实现$d$的多项式级有界性仍是开放问题。我们通过证明当可行集满足M-凸性（包含拟阵的广泛类别）时，可实现$O(d\log d)$的有限遗憾界，从而部分解决该问题。这一结果源于将M-凸集上最优解的结构特征与几何体积论证相结合。此外，我们将方法扩展至至多$C$轮的对抗性破坏反馈场景。通过监测由观测反馈诱导的有向图以自适应检测破坏，我们在无需先验知晓$C$的情况下，获得了$O((C+1)d\log d)$的遗憾界。

0

相关内容

【牛津博士论文】逆强化学习中的部分可识别性与模型设定错误

【牛津博士论文】逆强化学习中的部分可识别性与模型设定错误

专知会员服务

16+阅读 · 2025年6月7日

当SVM碰上对比学习？霍普金斯/MIT学者在AAAI2022提出《最大化间隔对比学习》选择更好的负样例提升对比性能

当SVM碰上对比学习？霍普金斯/MIT学者在AAAI2022提出《最大化间隔对比学习》选择更好的负样例提升对比性能

专知会员服务

48+阅读 · 2021年12月22日

【斯坦福】凸优化圣经- Convex Optimization （附730pdf下载）

【斯坦福】凸优化圣经- Convex Optimization （附730pdf下载）

专知会员服务

231+阅读 · 2020年6月5日

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

专知会员服务

22+阅读 · 2020年4月8日

【论文推荐】逆问题，深度学习，对称性破缺，Inverse Problems, Deep Learning, and Symmetry Breaking

【论文推荐】逆问题，深度学习，对称性破缺，Inverse Problems, Deep Learning, and Symmetry Breaking

专知会员服务

26+阅读 · 2020年3月27日

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

专知会员服务

29+阅读 · 2020年2月22日

【论文推荐WWW2020-UIUC】修正排序系统中的选择偏差：Correcting for Selection Bias in Learning-to-rank Systems

【论文推荐WWW2020-UIUC】修正排序系统中的选择偏差：Correcting for Selection Bias in Learning-to-rank Systems

专知会员服务

32+阅读 · 2020年2月1日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

在线变分推断，76页ppt，A Regret Bound for Online Variational Inference

在线变分推断，76页ppt，A Regret Bound for Online Variational Inference

专知会员服务

21+阅读 · 2019年12月2日

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

专知会员服务

34+阅读 · 2019年3月21日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

【干货书】凸随机优化，320页pdf

【干货书】凸随机优化，320页pdf

专知

12+阅读 · 2022年9月16日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

【论文笔记】具有深度注意力网络的协同Bundle（项目组合）推荐

【论文笔记】具有深度注意力网络的协同Bundle（项目组合）推荐

专知

11+阅读 · 2019年10月14日

TensorFlow动态图5行代码实现迁移学习 - 识别转变风格的MNIST

TensorFlow动态图5行代码实现迁移学习 - 识别转变风格的MNIST

专知

18+阅读 · 2019年4月26日

机器学习中的最优化算法总结

机器学习中的最优化算法总结

人工智能前沿讲习班

22+阅读 · 2019年3月22日

【伯克利博士论文】最优化无所不在-凸优化、组合优化与经济学（附256页全文下载）

【伯克利博士论文】最优化无所不在-凸优化、组合优化与经济学（附256页全文下载）

专知

16+阅读 · 2018年12月26日

博客 | 机器学习中的数学基础（凸优化）

博客 | 机器学习中的数学基础（凸优化）

AI研习社

14+阅读 · 2018年12月16日

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

专知

25+阅读 · 2018年2月6日

最小化加权完工时间和的在线排序研究

国家自然科学基金

0+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

含执行器死区/滞环非线性系统的模糊自适应容错控制

国家自然科学基金

0+阅读 · 2015年12月31日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

非光滑非凸优化问题的交替线性化算法及其应用

国家自然科学基金

6+阅读 · 2015年12月31日

有限理性下的最优停止理论及应用

国家自然科学基金

1+阅读 · 2015年12月31日

无限闭凸集族凸可行性问题中投影算法的线性收敛

国家自然科学基金

0+阅读 · 2015年12月31日

具有服务等级的平行机在线排序问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

非线性约束全局优化的新方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

一类极大加和逆优化问题的研究

国家自然科学基金

0+阅读 · 2014年12月31日

Q-Learning with Fine-Grained Gap-Dependent Regret

Arxiv

0+阅读 · 6月15日

Optimal Hidden-Target Learning for Online Inventory Optimization on General Convex Sets

Arxiv

0+阅读 · 6月12日

Online Convex Optimization with Sublinear Noisy Probes

Arxiv

0+阅读 · 6月12日

Capacity-Constrained Online Convex Optimization with Delayed Feedback

Arxiv

0+阅读 · 6月10日

Online Learning with Gradient-Variation Interval Regret

Arxiv

0+阅读 · 6月2日

From Non-Convex to Strongly Convex: Curvature-Adaptive FTPL for Online Optimization

Arxiv

0+阅读 · 6月1日

Online Resource Allocation with Convex-set Machine-Learned Advice

Arxiv

0+阅读 · 5月15日

Online Algorithms for Repeated Optimal Stopping: Balancing Baseline Guarantees and Regret

Arxiv

0+阅读 · 5月15日

Convex Optimization with Nested Evolving Feasible Sets

Arxiv

0+阅读 · 5月8日

From Average Sensitivity to Small-Loss Regret Bounds under Random-Order Model

Arxiv

0+阅读 · 5月8日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

3+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

5+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

15+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

10+阅读 · 6月17日

相关VIP内容

【牛津博士论文】逆强化学习中的部分可识别性与模型设定错误

【牛津博士论文】逆强化学习中的部分可识别性与模型设定错误

专知会员服务

16+阅读 · 2025年6月7日

当SVM碰上对比学习？霍普金斯/MIT学者在AAAI2022提出《最大化间隔对比学习》选择更好的负样例提升对比性能

当SVM碰上对比学习？霍普金斯/MIT学者在AAAI2022提出《最大化间隔对比学习》选择更好的负样例提升对比性能

专知会员服务

48+阅读 · 2021年12月22日

【斯坦福】凸优化圣经- Convex Optimization （附730pdf下载）

【斯坦福】凸优化圣经- Convex Optimization （附730pdf下载）

专知会员服务

231+阅读 · 2020年6月5日

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

专知会员服务

22+阅读 · 2020年4月8日

【论文推荐】逆问题，深度学习，对称性破缺，Inverse Problems, Deep Learning, and Symmetry Breaking

【论文推荐】逆问题，深度学习，对称性破缺，Inverse Problems, Deep Learning, and Symmetry Breaking

专知会员服务

26+阅读 · 2020年3月27日

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

专知会员服务

29+阅读 · 2020年2月22日

【论文推荐WWW2020-UIUC】修正排序系统中的选择偏差：Correcting for Selection Bias in Learning-to-rank Systems

【论文推荐WWW2020-UIUC】修正排序系统中的选择偏差：Correcting for Selection Bias in Learning-to-rank Systems

专知会员服务

32+阅读 · 2020年2月1日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

在线变分推断，76页ppt，A Regret Bound for Online Variational Inference

在线变分推断，76页ppt，A Regret Bound for Online Variational Inference

专知会员服务

21+阅读 · 2019年12月2日

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

专知会员服务

34+阅读 · 2019年3月21日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

【干货书】凸随机优化，320页pdf

【干货书】凸随机优化，320页pdf

专知

12+阅读 · 2022年9月16日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

【论文笔记】具有深度注意力网络的协同Bundle（项目组合）推荐

【论文笔记】具有深度注意力网络的协同Bundle（项目组合）推荐

专知

11+阅读 · 2019年10月14日

TensorFlow动态图5行代码实现迁移学习 - 识别转变风格的MNIST

TensorFlow动态图5行代码实现迁移学习 - 识别转变风格的MNIST

专知

18+阅读 · 2019年4月26日

机器学习中的最优化算法总结

机器学习中的最优化算法总结

人工智能前沿讲习班

22+阅读 · 2019年3月22日

【伯克利博士论文】最优化无所不在-凸优化、组合优化与经济学（附256页全文下载）

【伯克利博士论文】最优化无所不在-凸优化、组合优化与经济学（附256页全文下载）

专知

16+阅读 · 2018年12月26日

博客 | 机器学习中的数学基础（凸优化）

博客 | 机器学习中的数学基础（凸优化）

AI研习社

14+阅读 · 2018年12月16日

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

专知

25+阅读 · 2018年2月6日

相关论文

Q-Learning with Fine-Grained Gap-Dependent Regret

Arxiv

0+阅读 · 6月15日

Optimal Hidden-Target Learning for Online Inventory Optimization on General Convex Sets

Arxiv

0+阅读 · 6月12日

Online Convex Optimization with Sublinear Noisy Probes

Arxiv

0+阅读 · 6月12日

Capacity-Constrained Online Convex Optimization with Delayed Feedback

Arxiv

0+阅读 · 6月10日

Online Learning with Gradient-Variation Interval Regret

Arxiv

0+阅读 · 6月2日

From Non-Convex to Strongly Convex: Curvature-Adaptive FTPL for Online Optimization

Arxiv

0+阅读 · 6月1日

Online Resource Allocation with Convex-set Machine-Learned Advice

Arxiv

0+阅读 · 5月15日

Online Algorithms for Repeated Optimal Stopping: Balancing Baseline Guarantees and Regret

Arxiv

0+阅读 · 5月15日

Convex Optimization with Nested Evolving Feasible Sets

Arxiv

0+阅读 · 5月8日

From Average Sensitivity to Small-Loss Regret Bounds under Random-Order Model

Arxiv

0+阅读 · 5月8日

相关基金

最小化加权完工时间和的在线排序研究

国家自然科学基金

0+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

含执行器死区/滞环非线性系统的模糊自适应容错控制

国家自然科学基金

0+阅读 · 2015年12月31日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

非光滑非凸优化问题的交替线性化算法及其应用

国家自然科学基金

6+阅读 · 2015年12月31日

有限理性下的最优停止理论及应用

国家自然科学基金

1+阅读 · 2015年12月31日

无限闭凸集族凸可行性问题中投影算法的线性收敛

国家自然科学基金

0+阅读 · 2015年12月31日

具有服务等级的平行机在线排序问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

非线性约束全局优化的新方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

一类极大加和逆优化问题的研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员