Given only observational data $X = g(Z)$, where both the latent variables $Z$ and the generating process $g$ are unknown, recovering $Z$ is ill-posed without additional assumptions. Existing methods often assume linearity or rely on auxiliary supervision and functional constraints. However, such assumptions are rarely verifiable in practice, and most theoretical guarantees break down under even mild violations, leaving uncertainty about how to reliably understand the hidden world. To make identifiability actionable in the real-world scenarios, we take a complementary view: in the general settings where full identifiability is unattainable, what can still be recovered with guarantees, and what biases could be universally adopted? We introduce the problem of diverse dictionary learning to formalize this view. Specifically, we show that intersections, complements, and symmetric differences of latent variables linked to arbitrary observations, along with the latent-to-observed dependency structure, are still identifiable up to appropriate indeterminacies even without strong assumptions. These set-theoretic results can be composed using set algebra to construct structured and essential views of the hidden world, such as genus-differentia definitions. When sufficient structural diversity is present, they further imply full identifiability of all latent variables. Notably, all identifiability benefits follow from a simple inductive bias during estimation that can be readily integrated into most models. We validate the theory and demonstrate the benefits of the bias on both synthetic and real-world data.


翻译:仅依赖观测数据 $X = g(Z)$(其中隐变量 $Z$ 与生成过程 $g$ 均未知)时,若无额外假设,恢复 $Z$ 具有病态性。现有方法常假设线性关系,或依赖于辅助监督与函数约束。然而此类假设在实践中难以验证,且即便轻微偏离假设,多数理论保证也会失效,从而难以可靠理解隐藏世界。为使可识别性在真实场景中具备可操作性,本文提出互补视角:在完全可识别性无法实现的通用设定下,哪些内容仍能通过可保证的方式恢复?哪些偏差可被普遍采用?我们引入"多样字典学习"问题以规范该视角。具体而言,我们证明:在无强假设条件下,与任意观测关联的隐变量的交集、补集与对称差,以及隐变量-观测依赖结构,仍可在适当不确定性下保持可识别性。这些集合论结果可通过集合代数进行组合,以构建隐藏世界的结构化本质视图(例如属加种差定义)。当存在足够的结构多样性时,该结果进一步蕴含所有隐变量的完全可识别性。值得注意的是,所有可识别性优势均源于估计过程中可便捷集成到多数模型的简单归纳偏置。我们通过合成数据与真实数据验证了该理论,并展示了该偏置的实际效益。

0
下载
关闭预览

相关内容

【牛津大学博士论文】从多模态数据中学习表示,258页pdf
《不完全多标签学习综述:最新进展与未来趋势》
专知会员服务
26+阅读 · 2024年6月11日
【DeepMind】结构化数据少样本学习,51页ppt
专知会员服务
34+阅读 · 2022年8月13日
【新书】多元统计与机器学习,185页pdf
专知会员服务
89+阅读 · 2022年6月5日
WSDM'22「百度」考虑行为多样性的对比元学习
专知会员服务
24+阅读 · 2022年2月21日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
92+阅读 · 2020年7月4日
因果关联学习,Causal Relational Learning
专知会员服务
185+阅读 · 2020年4月21日
最新《多任务学习》综述,39页pdf
专知
28+阅读 · 2020年7月10日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
半监督多任务学习:Semisupervised Multitask Learning
我爱读PAMI
18+阅读 · 2018年4月29日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月21日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关VIP内容
【牛津大学博士论文】从多模态数据中学习表示,258页pdf
《不完全多标签学习综述:最新进展与未来趋势》
专知会员服务
26+阅读 · 2024年6月11日
【DeepMind】结构化数据少样本学习,51页ppt
专知会员服务
34+阅读 · 2022年8月13日
【新书】多元统计与机器学习,185页pdf
专知会员服务
89+阅读 · 2022年6月5日
WSDM'22「百度」考虑行为多样性的对比元学习
专知会员服务
24+阅读 · 2022年2月21日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
92+阅读 · 2020年7月4日
因果关联学习,Causal Relational Learning
专知会员服务
185+阅读 · 2020年4月21日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员