Safer Policy Compliance with Dynamic Epistemic Fallback - 专知论文

会员服务 ·

0

回退 · 语言模型 · 法律 · 扰动 · 防御机制 ·

Safer Policy Compliance with Dynamic Epistemic Fallback

翻译：动态认知回退：更安全的策略合规实现

Joseph Marvin Imperial,Harish Tayyar Madabushi

Humans develop a series of cognitive defenses, known as epistemic vigilance, to combat risks of deception and misinformation from everyday interactions. Developing safeguards for LLMs inspired by this mechanism might be particularly helpful for their application in high-stakes tasks such as automating compliance with data privacy laws. In this paper, we introduce Dynamic Epistemic Fallback (DEF), a dynamic safety protocol for improving an LLM's inference-time defenses against deceptive attacks that make use of maliciously perturbed policy texts. Through various levels of one-sentence textual cues, DEF nudges LLMs to flag inconsistencies, refuse compliance, and fallback to their parametric knowledge upon encountering perturbed policy texts. Using globally recognized legal policies such as HIPAA and GDPR, our empirical evaluations report that DEF effectively improves the capability of frontier LLMs to detect and refuse perturbed versions of policies, with DeepSeek-R1 achieving a 100% detection rate in one setting. This work encourages further efforts to develop cognitively inspired defenses to improve LLM robustness against forms of harm and deception that exploit legal artifacts.

翻译：人类发展出一系列认知防御机制，即认知警惕性，以应对日常互动中的欺骗和错误信息风险。受此机制启发为大型语言模型开发防护措施，可能对其在自动化数据隐私法律合规等高风险任务中的应用特别有益。本文提出动态认知回退（DEF），这是一种动态安全协议，旨在增强大型语言模型在推理时抵御利用恶意扰动策略文本进行欺骗攻击的防御能力。DEF通过不同层级的单句文本提示，引导大型语言模型在遇到扰动策略文本时标记不一致性、拒绝合规要求，并回退到其参数化知识。基于HIPAA和GDPR等全球公认法律政策的实证评估表明，DEF能有效提升前沿大型语言模型检测和拒绝扰动版本政策的能力，其中DeepSeek-R1在特定场景下实现了100%的检测率。本研究鼓励进一步开发受认知启发的防御机制，以增强大型语言模型抵御利用法律文本实施伤害和欺骗的鲁棒性。

0

相关内容

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

专知会员服务

15+阅读 · 3月14日

《迈向军事智能网络态势感知》最新报告

《迈向军事智能网络态势感知》最新报告

专知会员服务

18+阅读 · 3月2日

【博士论文】《通过提前退出算法加速大语言模型推理》

【博士论文】《通过提前退出算法加速大语言模型推理》

专知会员服务

13+阅读 · 2025年9月9日

数字时代的认知域安全：理论解构、风险生成及治理路径

数字时代的认知域安全：理论解构、风险生成及治理路径

专知会员服务

44+阅读 · 2024年4月4日

《重新思考网络安全决策：在不确定情况下利用认知启发法》2024最新论文

《重新思考网络安全决策：在不确定情况下利用认知启发法》2024最新论文

专知会员服务

26+阅读 · 2024年2月1日

《实现网络防御态势感知能力的决策支持要素和使能技术》2023最新博士论文

《实现网络防御态势感知能力的决策支持要素和使能技术》2023最新博士论文

专知会员服务

40+阅读 · 2023年11月15日

《使用生成对抗式模仿学习（GAIL）预测认知发射器行为》认知雷达论文 | 美海军

《使用生成对抗式模仿学习（GAIL）预测认知发射器行为》认知雷达论文 | 美海军

专知会员服务

36+阅读 · 2023年2月8日

多模态认知计算

多模态认知计算

专知会员服务

182+阅读 · 2022年9月16日

数据驱动的态势认知技术及发展思考

数据驱动的态势认知技术及发展思考

专知会员服务

154+阅读 · 2022年7月12日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

数据驱动的态势认知技术及发展思考

数据驱动的态势认知技术及发展思考

专知

19+阅读 · 2022年7月12日

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

专知

83+阅读 · 2022年7月7日

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

专知

17+阅读 · 2022年4月16日

推荐系统主流召回方法综述

推荐系统主流召回方法综述

AINLP

10+阅读 · 2020年7月16日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

推荐召回算法之深度召回模型串讲

推荐召回算法之深度召回模型串讲

AINLP

22+阅读 · 2019年6月14日

网络安全态势感知

网络安全态势感知

计算机与网络安全

26+阅读 · 2018年10月14日

推荐系统、风控模型、知识图谱，竟然都可以用网络挖掘来实现

推荐系统、风控模型、知识图谱，竟然都可以用网络挖掘来实现

数据分析

12+阅读 · 2018年8月15日

网络安全态势感知浅析

网络安全态势感知浅析

计算机与网络安全

18+阅读 · 2017年10月13日

动态重构综合模块化航空电子系统适航安全性评估方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于抽象语义切片和后向求精分析的静态分析警报自动确认研究

国家自然科学基金

1+阅读 · 2015年12月31日

移动社会网络的动态社区发现及其信任评价机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

进近条件下社交感知航空自组网安全态势可靠共享方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向社群智能的认知网络中机会数据通信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

认知雷达联合检测、跟踪、分类与自适应波形优化技术研究

国家自然科学基金

20+阅读 · 2015年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

动态环境下决策单元效率评价方法与应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use

Arxiv

0+阅读 · 3月3日

Learning to Stay Safe: Adaptive Regularization Against Safety Degradation during Fine-Tuning

Arxiv

0+阅读 · 2月19日

SAFER: Risk-Constrained Sample-then-Filter in Large Language Models

Arxiv

0+阅读 · 2月16日

AISA: Awakening Intrinsic Safety Awareness in Large Language Models against Jailbreak Attacks

Arxiv

0+阅读 · 2月14日

Risk Awareness Injection: Calibrating Vision-Language Models for Safety without Compromising Utility

Arxiv

0+阅读 · 2月11日

Agent-Fence: Mapping Security Vulnerabilities Across Deep Research Agents

Arxiv

0+阅读 · 2月7日

Beyond Static Alignment: Hierarchical Policy Control for LLM Safety via Risk-Aware Chain-of-Thought

Arxiv

0+阅读 · 2月6日

Risk Awareness Injection: Calibrating Vision-Language Models for Safety without Compromising Utility

Arxiv

0+阅读 · 2月3日

Concept-Based Dictionary Learning for Inference-Time Safety in Vision Language Action Models

Arxiv

0+阅读 · 2月2日

SAFER: Probing Safety in Reward Models with Sparse Autoencoder

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

0+阅读 · 今天13:13

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

0+阅读 · 今天13:08

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

3+阅读 · 今天7:11

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

5+阅读 · 今天6:56

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

2+阅读 · 今天4:16

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

10+阅读 · 今天3:36

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 今天3:21

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 今天3:13

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

8+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

17+阅读 · 4月22日

相关VIP内容

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

专知会员服务

15+阅读 · 3月14日

《迈向军事智能网络态势感知》最新报告

《迈向军事智能网络态势感知》最新报告

专知会员服务

18+阅读 · 3月2日

【博士论文】《通过提前退出算法加速大语言模型推理》

【博士论文】《通过提前退出算法加速大语言模型推理》

专知会员服务

13+阅读 · 2025年9月9日

数字时代的认知域安全：理论解构、风险生成及治理路径

数字时代的认知域安全：理论解构、风险生成及治理路径

专知会员服务

44+阅读 · 2024年4月4日

《重新思考网络安全决策：在不确定情况下利用认知启发法》2024最新论文

《重新思考网络安全决策：在不确定情况下利用认知启发法》2024最新论文

专知会员服务

26+阅读 · 2024年2月1日

《实现网络防御态势感知能力的决策支持要素和使能技术》2023最新博士论文

《实现网络防御态势感知能力的决策支持要素和使能技术》2023最新博士论文

专知会员服务

40+阅读 · 2023年11月15日

《使用生成对抗式模仿学习（GAIL）预测认知发射器行为》认知雷达论文 | 美海军

《使用生成对抗式模仿学习（GAIL）预测认知发射器行为》认知雷达论文 | 美海军

专知会员服务

36+阅读 · 2023年2月8日

多模态认知计算

多模态认知计算

专知会员服务

182+阅读 · 2022年9月16日

数据驱动的态势认知技术及发展思考

数据驱动的态势认知技术及发展思考

专知会员服务

154+阅读 · 2022年7月12日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体长期记忆安全性综述：迈向记忆主权

人工智能赋能无人机：俄乌战争（万字长文）

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

相关资讯

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

数据驱动的态势认知技术及发展思考

数据驱动的态势认知技术及发展思考

专知

19+阅读 · 2022年7月12日

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

专知

83+阅读 · 2022年7月7日

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

专知

17+阅读 · 2022年4月16日

推荐系统主流召回方法综述

推荐系统主流召回方法综述

AINLP

10+阅读 · 2020年7月16日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

推荐召回算法之深度召回模型串讲

推荐召回算法之深度召回模型串讲

AINLP

22+阅读 · 2019年6月14日

网络安全态势感知

网络安全态势感知

计算机与网络安全

26+阅读 · 2018年10月14日

推荐系统、风控模型、知识图谱，竟然都可以用网络挖掘来实现

推荐系统、风控模型、知识图谱，竟然都可以用网络挖掘来实现

数据分析

12+阅读 · 2018年8月15日

网络安全态势感知浅析

网络安全态势感知浅析

计算机与网络安全

18+阅读 · 2017年10月13日

相关论文

Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use

Arxiv

0+阅读 · 3月3日

Learning to Stay Safe: Adaptive Regularization Against Safety Degradation during Fine-Tuning

Arxiv

0+阅读 · 2月19日

SAFER: Risk-Constrained Sample-then-Filter in Large Language Models

Arxiv

0+阅读 · 2月16日

AISA: Awakening Intrinsic Safety Awareness in Large Language Models against Jailbreak Attacks

Arxiv

0+阅读 · 2月14日

Risk Awareness Injection: Calibrating Vision-Language Models for Safety without Compromising Utility

Arxiv

0+阅读 · 2月11日

Agent-Fence: Mapping Security Vulnerabilities Across Deep Research Agents

Arxiv

0+阅读 · 2月7日

Beyond Static Alignment: Hierarchical Policy Control for LLM Safety via Risk-Aware Chain-of-Thought

Arxiv

0+阅读 · 2月6日

Risk Awareness Injection: Calibrating Vision-Language Models for Safety without Compromising Utility

Arxiv

0+阅读 · 2月3日

Concept-Based Dictionary Learning for Inference-Time Safety in Vision Language Action Models

Arxiv

0+阅读 · 2月2日

SAFER: Probing Safety in Reward Models with Sparse Autoencoder

Arxiv

0+阅读 · 1月30日

相关基金

动态重构综合模块化航空电子系统适航安全性评估方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于抽象语义切片和后向求精分析的静态分析警报自动确认研究

国家自然科学基金

1+阅读 · 2015年12月31日

移动社会网络的动态社区发现及其信任评价机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

进近条件下社交感知航空自组网安全态势可靠共享方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向社群智能的认知网络中机会数据通信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

认知雷达联合检测、跟踪、分类与自适应波形优化技术研究

国家自然科学基金

20+阅读 · 2015年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

动态环境下决策单元效率评价方法与应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员