Adversarial vulnerability in vision and hallucination in large language models are conventionally viewed as separate problems, each addressed with modality-specific patches. This study first reveals that they share a common geometric origin: the input and its loss gradient are conjugate observables subject to an irreducible uncertainty bound. Formalizing a Neural Uncertainty Principle (NUP) under a loss-induced state, we find that in near-bound regimes, further compression must be accompanied by increased sensitivity dispersion (adversarial fragility), while weak prompt-gradient coupling leaves generation under-constrained (hallucination). Crucially, this bound is modulated by an input-gradient correlation channel, captured by a specifically designed single-backward probe. In vision, masking highly coupled components improves robustness without costly adversarial training; in language, the same prefill-stage probe detects hallucination risk before generating any answer tokens. NUP thus turns two seemingly separate failure taxonomies into a shared uncertainty-budget view and provides a principled lens for reliability analysis. Guided by this NUP theory, we propose ConjMask (masking high-contribution input components) and LogitReg (logit-side regularization) to improve robustness without adversarial training, and use the probe as a decoding-free risk signal for LLMs, enabling hallucination detection and prompt selection. NUP thus provides a unified, practical framework for diagnosing and mitigating boundary anomalies across perception and generation tasks.


翻译:视觉领域的对抗脆弱性与大语言模型的幻觉通常被视为两个独立问题,各自采用模态特定的补丁方案加以解决。本研究首先揭示二者共享同一几何起源:输入及其损失梯度构成共轭可观测量,受制于不可约的不确定性下界。在损失诱导态下形式化神经不确定性原理(NUP)后,我们发现:在近边界区域,进一步压缩必然伴随着敏感度弥散度的增加(对抗脆弱性),而弱提示-梯度耦合则使生成过程约束不足(幻觉)。关键在于,该下界受输入-梯度相关性通道调制,可通过专门设计的单次反向传播探针进行捕获。在视觉领域,遮蔽高耦合分量可在不进行昂贵对抗训练的前提下提升鲁棒性;在语言领域,相同的预填充阶段探针可在生成任何答案词元前检测幻觉风险。因此,NUP将两种看似独立的失败分类学转化为共享的不确定性预算视角,并为可靠性分析提供了原理性透镜。基于NUP理论指导,我们提出ConjMask(遮蔽高贡献输入分量)与LogitReg(逻辑侧正则化)以在不采用对抗训练的条件下提升鲁棒性,并将该探针作为大语言模型的无解码风险信号,实现幻觉检测与提示选择。因此,NUP为跨感知与生成任务的边界异常诊断与缓解提供了统一且实用的框架。

0
下载
关闭预览

相关内容

大语言模型与视觉模型中的幻觉现象理解综述
专知会员服务
21+阅读 · 2025年10月2日
大型视觉语言模型中幻觉现象的综述
专知会员服务
47+阅读 · 2024年10月24日
《多模态大型语言模型的幻觉现象》综述
专知会员服务
46+阅读 · 2024年4月30日
《图神经网络不确定性》最新综述
专知会员服务
28+阅读 · 2024年3月13日
【AAAI2022】不确定性感知的多视角表示学习
专知会员服务
47+阅读 · 2022年1月25日
深度学习模型不确定性方法对比
PaperWeekly
20+阅读 · 2020年2月10日
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
10+阅读 · 2024年3月11日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员