Humans develop a series of cognitive defenses, known as epistemic vigilance, to combat risks of deception and misinformation from everyday interactions. Developing safeguards for LLMs inspired by this mechanism might be particularly helpful for their application in high-stakes tasks such as automating compliance with data privacy laws. In this paper, we introduce Dynamic Epistemic Fallback (DEF), a dynamic safety protocol for improving an LLM's inference-time defenses against deceptive attacks that make use of maliciously perturbed policy texts. Through various levels of one-sentence textual cues, DEF nudges LLMs to flag inconsistencies, refuse compliance, and fallback to their parametric knowledge upon encountering perturbed policy texts. Using globally recognized legal policies such as HIPAA and GDPR, our empirical evaluations report that DEF effectively improves the capability of frontier LLMs to detect and refuse perturbed versions of policies, with DeepSeek-R1 achieving a 100% detection rate in one setting. This work encourages further efforts to develop cognitively inspired defenses to improve LLM robustness against forms of harm and deception that exploit legal artifacts.


翻译:人类发展出一系列认知防御机制,即认知警惕性,以应对日常互动中的欺骗和错误信息风险。受此机制启发为大型语言模型开发防护措施,可能对其在自动化数据隐私法律合规等高风险任务中的应用特别有益。本文提出动态认知回退(DEF),这是一种动态安全协议,旨在增强大型语言模型在推理时抵御利用恶意扰动策略文本进行欺骗攻击的防御能力。DEF通过不同层级的单句文本提示,引导大型语言模型在遇到扰动策略文本时标记不一致性、拒绝合规要求,并回退到其参数化知识。基于HIPAA和GDPR等全球公认法律政策的实证评估表明,DEF能有效提升前沿大型语言模型检测和拒绝扰动版本政策的能力,其中DeepSeek-R1在特定场景下实现了100%的检测率。本研究鼓励进一步开发受认知启发的防御机制,以增强大型语言模型抵御利用法律文本实施伤害和欺骗的鲁棒性。

0
下载
关闭预览

相关内容

《迈向军事智能网络态势感知》最新报告
专知会员服务
18+阅读 · 3月2日
多模态认知计算
专知会员服务
182+阅读 · 2022年9月16日
数据驱动的态势认知技术及发展思考
专知会员服务
154+阅读 · 2022年7月12日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
数据驱动的态势认知技术及发展思考
专知
19+阅读 · 2022年7月12日
推荐系统主流召回方法综述
AINLP
10+阅读 · 2020年7月16日
推荐召回算法之深度召回模型串讲
AINLP
22+阅读 · 2019年6月14日
网络安全态势感知
计算机与网络安全
26+阅读 · 2018年10月14日
网络安全态势感知浅析
计算机与网络安全
18+阅读 · 2017年10月13日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
人工智能赋能无人机:俄乌战争(万字长文)
专知会员服务
5+阅读 · 今天6:56
国外海军作战管理系统与作战训练系统
专知会员服务
2+阅读 · 今天4:16
美军条令《海军陆战队规划流程(2026版)》
专知会员服务
10+阅读 · 今天3:36
《压缩式分布式交互仿真标准》120页
专知会员服务
4+阅读 · 今天3:21
《电子战数据交换模型研究报告》
专知会员服务
6+阅读 · 今天3:13
《基于Transformer的异常舰船导航识别与跟踪》80页
《低数据领域军事目标检测模型研究》
专知会员服务
6+阅读 · 今天2:37
【CMU博士论文】物理世界的视觉感知与深度理解
专知会员服务
10+阅读 · 4月22日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员