Humans develop a series of cognitive defenses, known as epistemic vigilance, to combat risks of deception and misinformation from everyday interactions. Developing safeguards for LLMs inspired by this mechanism might be particularly helpful for their application in high-stakes tasks such as automating compliance with data privacy laws. In this paper, we introduce Dynamic Epistemic Fallback (DEF), a dynamic safety protocol for improving an LLM's inference-time defenses against deceptive attacks that make use of maliciously perturbed policy texts. Through various levels of one-sentence textual cues, DEF nudges LLMs to flag inconsistencies, refuse compliance, and fallback to their parametric knowledge upon encountering perturbed policy texts. Using globally recognized legal policies such as HIPAA and GDPR, our empirical evaluations report that DEF effectively improves the capability of frontier LLMs to detect and refuse perturbed versions of policies, with DeepSeek-R1 achieving a 100% detection rate in one setting. This work encourages further efforts to develop cognitively inspired defenses to improve LLM robustness against forms of harm and deception that exploit legal artifacts.


翻译:人类发展出一系列认知防御机制,即认知警惕性,以应对日常互动中的欺骗和错误信息风险。受此机制启发为大型语言模型开发防护措施,可能对其在自动化数据隐私法律合规等高风险任务中的应用特别有益。本文提出动态认知回退(DEF),这是一种动态安全协议,旨在增强大型语言模型在推理时抵御利用恶意扰动策略文本进行欺骗攻击的防御能力。DEF通过不同层级的单句文本提示,引导大型语言模型在遇到扰动策略文本时标记不一致性、拒绝合规要求,并回退到其参数化知识。基于HIPAA和GDPR等全球公认法律政策的实证评估表明,DEF能有效提升前沿大型语言模型检测和拒绝扰动版本政策的能力,其中DeepSeek-R1在特定场景下实现了100%的检测率。本研究鼓励进一步开发受认知启发的防御机制,以增强大型语言模型抵御利用法律文本实施伤害和欺骗的鲁棒性。

0
下载
关闭预览

相关内容

面向多模态智能的下一个Token预测:综述
专知会员服务
26+阅读 · 2024年12月30日
多模态认知计算
专知会员服务
182+阅读 · 2022年9月16日
数据驱动的态势认知技术及发展思考
专知会员服务
154+阅读 · 2022年7月12日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
数据驱动的态势认知技术及发展思考
专知
18+阅读 · 2022年7月12日
推荐系统主流召回方法综述
AINLP
10+阅读 · 2020年7月16日
推荐召回算法之深度召回模型串讲
AINLP
22+阅读 · 2019年6月14日
网络安全态势感知
计算机与网络安全
26+阅读 · 2018年10月14日
网络安全态势感知浅析
计算机与网络安全
18+阅读 · 2017年10月13日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
面向多模态智能的下一个Token预测:综述
专知会员服务
26+阅读 · 2024年12月30日
多模态认知计算
专知会员服务
182+阅读 · 2022年9月16日
数据驱动的态势认知技术及发展思考
专知会员服务
154+阅读 · 2022年7月12日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员