We study how to construct compressed datasets that suffice to recover optimal decisions in linear programs with an unknown cost vector $c$ lying in a prior set $\mathcal{C}$. Recent work by Bennouna et al. provides an exact geometric characterization of sufficient decision datasets (SDDs) via an intrinsic decision-relevant dimension $d^\star$. However, their algorithm for constructing minimum-size SDDs requires solving mixed-integer programs. In this paper, we establish hardness results showing that computing $d^\star$ is NP-hard and deciding whether a dataset is globally sufficient is coNP-hard, thereby resolving a recent open problem posed by Bennouna et al. To address this worst-case intractability, we introduce pointwise sufficiency, a relaxation that requires sufficiency for an individual cost vector. Under nondegeneracy, we provide a polynomial-time cutting-plane algorithm for constructing pointwise-sufficient decision datasets. In a data-driven regime with i.i.d.\ costs, we further propose a cumulative algorithm that aggregates decision-relevant directions across samples, yielding a stable compression scheme of size at most $d^\star$. This leads to a distribution-free PAC guarantee: with high probability over the training sample, the pointwise sufficiency failure probability on a fresh draw is at most $\tilde{O}(d^\star/n)$, and this rate is tight up to logarithmic factors. Finally, we apply decision-sufficient representations to contextual linear optimization, obtaining compressed predictors with generalization bounds scaling as $\tilde{O}(\sqrt{d^\star/n})$ rather than $\tilde{O}(\sqrt{d/n})$, where $d$ is the ambient cost dimension.


翻译:我们研究如何构建压缩数据集,以充分恢复未知成本向量$c$位于先验集合$\mathcal{C}$中的线性规划问题的最优决策。Bennouna等人近期工作通过内在决策相关维度$d^\star$给出了充分决策数据集(SDDs)的精确几何特征。然而,其构建最小规模SDDs的算法需要求解混合整数规划。本文证明计算$d^\star$是NP难的,且判定数据集全局充分性是coNP难的,从而解决了Bennouna等人提出的近期开放问题。为应对这种最坏情况下的难解性,我们引入点态充分性——一种仅要求对单个成本向量具有充分性的松弛概念。在非退化条件下,我们提出多项式时间的割平面算法来构建点态充分决策数据集。在独立同分布成本的数驱动机制下,进一步提出累积算法,该算法跨样本聚合决策相关方向,生成规模至多为$d^\star$的稳定压缩方案。这引出了无关分布的概率近似正确保证:以高概率而言,训练样本上新鲜抽取点的点态充分性失效概率至多为$\tilde{O}(d^\star/n)$,且该速率在忽略对数因子下紧致。最后,我们将决策充分表示应用于上下文线性优化,获得泛化界为$\tilde{O}(\sqrt{d^\star/n})$而非$\tilde{O}(\sqrt{d/n})$的压缩预测器,其中$d$为环境成本维度。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
《分布式多智能体强化学习策略的可解释性研究》
专知会员服务
29+阅读 · 2025年11月17日
【干货书】决策优化模型,640页pdf
专知会员服务
79+阅读 · 2023年5月4日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
【干货】​深度学习中的线性代数
专知
21+阅读 · 2018年3月30日
干货|掌握机器学习数学基础之优化[1](重点知识)
机器学习研究会
10+阅读 · 2017年11月19日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
《分布式多智能体强化学习策略的可解释性研究》
专知会员服务
29+阅读 · 2025年11月17日
【干货书】决策优化模型,640页pdf
专知会员服务
79+阅读 · 2023年5月4日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员