Multimodal LLMs are powerful but prone to object hallucinations, which describe non-existent entities and harm reliability. While recent unlearning methods attempt to mitigate this, we identify a critical flaw: structural fragility. We empirically demonstrate that standard erasure achieves only superficial suppression, trapping the model in sharp minima where hallucinations catastrophically resurge after lightweight relearning. To ensure geometric stability, we propose SARE, which casts unlearning as a targeted min-max optimization problem and uses a Targeted-SAM mechanism to explicitly flatten the loss landscape around hallucinated concepts. By suppressing hallucinations under simulated worst-case parameter perturbations, our framework ensures robust removal stable against weight shifts. Extensive experiments demonstrate that SARE significantly outperforms baselines in erasure efficacy while preserving general generation quality. Crucially, it maintains persistent hallucination suppression against relearning and parameter updates, validating the effectiveness of geometric stabilization.


翻译:多模态大语言模型功能强大,但易产生物体幻觉,即描述不存在的实体,损害了模型的可靠性。尽管近期的遗忘方法试图缓解此问题,但我们发现一个关键缺陷:结构脆弱性。我们通过实验证明,标准擦除法仅实现了表面的抑制,将模型困于尖锐的极小值点,在轻量级再学习后幻觉会灾难性地复现。为确保几何稳定性,我们提出SARE方法,它将遗忘问题构建为一个定向的最小-最大优化问题,并利用Targeted-SAM机制,在幻觉概念周围显式地平坦化损失景观。通过在模拟的最坏情况参数扰动下抑制幻觉,我们的框架确保了擦除的鲁棒性,能够稳定应对权重偏移。大量实验表明,SARE在擦除效果上显著优于基线方法,同时保持了良好的通用生成质量。至关重要的是,它能在再学习和参数更新后持续抑制幻觉,验证了几何稳定化的有效性。

0
下载
关闭预览

相关内容

浅谈多模态大模型幻觉缓解方法
专知会员服务
24+阅读 · 2024年12月17日
《多模态大型语言模型的幻觉现象》综述
专知会员服务
46+阅读 · 2024年4月30日
大型语言模型幻觉缓解技术的全面综述
专知会员服务
72+阅读 · 2024年1月3日
多模态大模型的幻觉问题与评估
专知会员服务
57+阅读 · 2023年7月28日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员