基础可读性协议提升可信监控效果 (Basic Legibility Protocols Improve Trusted Monitoring) - 专知论文

会员服务 ·

0

注释（编程） · 可信模型 · 代码 · AI · 监督 ·

Basic Legibility Protocols Improve Trusted Monitoring

翻译：基础可读性协议提升可信监控效果

Ashwin Sreevatsa,Sebastian Prasanna,Cody Rushing

The AI Control research agenda aims to develop control protocols: safety techniques that prevent untrusted AI systems from taking harmful actions during deployment. Because human oversight is expensive, one approach is trusted monitoring, where weaker, trusted models oversee stronger, untrusted models$\unicode{x2013}$but this often fails when the untrusted model's actions exceed the monitor's comprehension. We introduce legibility protocols, which encourage the untrusted model to take actions that are easier for a monitor to evaluate. We perform control evaluations in the APPS coding setting, where an adversarial agent attempts to write backdoored code without detection. We study legibility protocols that allow the untrusted model to thoroughly document its code with comments$\unicode{x2013}$in contrast to prior work, which removed comments to prevent deceptive ones. We find that: (i) commenting protocols improve safety without sacrificing task performance relative to comment-removal baselines; (ii) commenting disproportionately benefits honest code, which typically has a natural explanation that resolves monitor suspicion, whereas backdoored code frequently lacks an easy justification; (iii) gains from commenting increase with monitor strength, as stronger monitors better distinguish genuine justifications from only superficially plausible ones.

翻译：AI控制研究议程旨在开发控制协议：即在部署过程中防止不可信AI系统采取有害行为的安全技术。由于人工监督成本高昂，一种可行方案是可信监控，即由较弱的可信模型监督较强的不可信模型——但当不可信模型的行为超出监控者的理解范围时，该方法往往失效。本文提出可读性协议，该协议促使不可信模型采取更易于监控者评估的行为。我们在APPS编程环境中进行控制评估，其中对抗性智能体试图编写后门代码而不被检测。我们研究的可读性协议允许不可信模型通过注释对其代码进行详尽文档化——这与先前为防范欺骗性注释而删除注释的研究形成对比。研究发现：（i）相较于注释删除基线，注释协议能在不牺牲任务性能的前提下提升安全性；（ii）注释对诚实代码的益处尤为显著，这类代码通常具有可消除监控疑虑的自然解释，而后门代码往往缺乏易于辩护的合理依据；（iii）注释带来的效益随监控强度提升而增加，因为更强的监控器能更好地区分真实解释与仅具表面合理性的辩解。

0

相关内容

注释（编程）

注释（编程）

注释（编程）

《防务领域人工智能可信赖性：为防务开发负责任、符合伦理且可信赖的AI系统》欧洲防务局2025最新107页

《防务领域人工智能可信赖性：为防务开发负责任、符合伦理且可信赖的AI系统》欧洲防务局2025最新107页

专知会员服务

22+阅读 · 2025年5月14日

人工智能如何增强军事监控与边境安全

人工智能如何增强军事监控与边境安全

专知会员服务

20+阅读 · 2025年3月20日

《基于监督学习的UXV网络控制系统优化与可解释性》最新67页

《基于监督学习的UXV网络控制系统优化与可解释性》最新67页

专知会员服务

25+阅读 · 2024年11月13日

【博士论文】可信赖的人工智能：确保可解释性和接受度，175页pdf

【博士论文】可信赖的人工智能：确保可解释性和接受度，175页pdf

专知会员服务

30+阅读 · 2024年2月7日

人工智能的安全性，公平性，可问责性，透明度，一致性，77页ppt

人工智能的安全性，公平性，可问责性，透明度，一致性，77页ppt

专知会员服务

51+阅读 · 2023年5月1日

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

专知会员服务

107+阅读 · 2021年10月6日

《可信人工智能白皮书》39页pdf，中国信通院联合京东探索研究院发布！

《可信人工智能白皮书》39页pdf，中国信通院联合京东探索研究院发布！

专知会员服务

151+阅读 · 2021年7月11日

【开放书】数据可视化基础，《Fundamentals of Data Visualization》

专知会员服务

65+阅读 · 2021年6月13日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

【重磅】迈向可信赖的人工智能，59位作者，80页pdf阐述Trustworthy AI可验证声明的支持机制

【重磅】迈向可信赖的人工智能，59位作者，80页pdf阐述Trustworthy AI可验证声明的支持机制

专知会员服务

63+阅读 · 2020年4月16日

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

专知

69+阅读 · 2022年7月20日

【Manning新书】可解释人工智能: 构建可解释机器学习系统，330页pdf

【Manning新书】可解释人工智能: 构建可解释机器学习系统，330页pdf

专知

34+阅读 · 2022年6月2日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

如何构建「可信任的深度学习」？美国三院院士UCLA数学泰斗Stanley Osher教授这44页ppt为你讲述

如何构建「可信任的深度学习」？美国三院院士UCLA数学泰斗Stanley Osher教授这44页ppt为你讲述

专知

13+阅读 · 2020年3月14日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

关于弱监督学习，这可能是目前最详尽的一篇科普文

关于弱监督学习，这可能是目前最详尽的一篇科普文

AI科技评论

29+阅读 · 2019年5月1日

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

新智元

14+阅读 · 2019年3月15日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

基于信号理论和众包的社交媒体平台安全性和可信度群体评估方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

支持智能终端通信的物联网管控机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

理性安全两方计算协议设计与安全性证明

国家自然科学基金

0+阅读 · 2015年12月31日

可信工业控制系统中信任冷启动方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

可信多云协作关键安全问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

流密码可约性高效判别算法存在性的研究

国家自然科学基金

0+阅读 · 2015年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

智能视频监控中图像超分辨率重建关键技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

Verifiable Semantics for Agent-to-Agent Communication

Arxiv

0+阅读 · 2月18日

ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI

Arxiv

0+阅读 · 2月18日

Editable XAI: Toward Bidirectional Human-AI Alignment with Co-Editable Explanations of Interpretable Attributes

Arxiv

0+阅读 · 2月13日

Provable Secure Steganography Based on Adaptive Dynamic Sampling

Arxiv

0+阅读 · 2月13日

Privacy-Preserving Covert Communication Using Encrypted Wearable Gesture Recognition

Arxiv

0+阅读 · 2月8日

CausalArmor: Efficient Indirect Prompt Injection Guardrails via Causal Attribution

Arxiv

0+阅读 · 2月8日

Attack Selection Reduces Safety in Concentrated AI Control Settings against Trusted Monitoring

Arxiv

0+阅读 · 2月4日

Conformal Reachability for Safe Control in Unknown Environments

Conformal Reachability for Safe Control in Unknown Environments

Arxiv

0+阅读 · 2月3日

Towards Trustworthy Multimodal Recommendation

Arxiv

0+阅读 · 1月31日

Trustworthy Intelligent Education: A Systematic Perspective on Progress, Challenges, and Future Directions

Arxiv

1+阅读 · 1月29日

VIP会员

文章信息

相关主题

注释（编程）

相关VIP内容

《防务领域人工智能可信赖性：为防务开发负责任、符合伦理且可信赖的AI系统》欧洲防务局2025最新107页

《防务领域人工智能可信赖性：为防务开发负责任、符合伦理且可信赖的AI系统》欧洲防务局2025最新107页

专知会员服务

22+阅读 · 2025年5月14日

人工智能如何增强军事监控与边境安全

人工智能如何增强军事监控与边境安全

专知会员服务

20+阅读 · 2025年3月20日

《基于监督学习的UXV网络控制系统优化与可解释性》最新67页

《基于监督学习的UXV网络控制系统优化与可解释性》最新67页

专知会员服务

25+阅读 · 2024年11月13日

【博士论文】可信赖的人工智能：确保可解释性和接受度，175页pdf

【博士论文】可信赖的人工智能：确保可解释性和接受度，175页pdf

专知会员服务

30+阅读 · 2024年2月7日

人工智能的安全性，公平性，可问责性，透明度，一致性，77页ppt

人工智能的安全性，公平性，可问责性，透明度，一致性，77页ppt

专知会员服务

51+阅读 · 2023年5月1日

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

专知会员服务

107+阅读 · 2021年10月6日

《可信人工智能白皮书》39页pdf，中国信通院联合京东探索研究院发布！

《可信人工智能白皮书》39页pdf，中国信通院联合京东探索研究院发布！

专知会员服务

151+阅读 · 2021年7月11日

【开放书】数据可视化基础，《Fundamentals of Data Visualization》

专知会员服务

65+阅读 · 2021年6月13日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

【重磅】迈向可信赖的人工智能，59位作者，80页pdf阐述Trustworthy AI可验证声明的支持机制

【重磅】迈向可信赖的人工智能，59位作者，80页pdf阐述Trustworthy AI可验证声明的支持机制

专知会员服务

63+阅读 · 2020年4月16日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

专知

69+阅读 · 2022年7月20日

【Manning新书】可解释人工智能: 构建可解释机器学习系统，330页pdf

【Manning新书】可解释人工智能: 构建可解释机器学习系统，330页pdf

专知

34+阅读 · 2022年6月2日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

如何构建「可信任的深度学习」？美国三院院士UCLA数学泰斗Stanley Osher教授这44页ppt为你讲述

如何构建「可信任的深度学习」？美国三院院士UCLA数学泰斗Stanley Osher教授这44页ppt为你讲述

专知

13+阅读 · 2020年3月14日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

关于弱监督学习，这可能是目前最详尽的一篇科普文

关于弱监督学习，这可能是目前最详尽的一篇科普文

AI科技评论

29+阅读 · 2019年5月1日

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

新智元

14+阅读 · 2019年3月15日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

相关论文

Verifiable Semantics for Agent-to-Agent Communication

Arxiv

0+阅读 · 2月18日

ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI

Arxiv

0+阅读 · 2月18日

Editable XAI: Toward Bidirectional Human-AI Alignment with Co-Editable Explanations of Interpretable Attributes

Arxiv

0+阅读 · 2月13日

Provable Secure Steganography Based on Adaptive Dynamic Sampling

Arxiv

0+阅读 · 2月13日

Privacy-Preserving Covert Communication Using Encrypted Wearable Gesture Recognition

Arxiv

0+阅读 · 2月8日

CausalArmor: Efficient Indirect Prompt Injection Guardrails via Causal Attribution

Arxiv

0+阅读 · 2月8日

Attack Selection Reduces Safety in Concentrated AI Control Settings against Trusted Monitoring

Arxiv

0+阅读 · 2月4日

Conformal Reachability for Safe Control in Unknown Environments

Conformal Reachability for Safe Control in Unknown Environments

Arxiv

0+阅读 · 2月3日

Towards Trustworthy Multimodal Recommendation

Arxiv

0+阅读 · 1月31日

Trustworthy Intelligent Education: A Systematic Perspective on Progress, Challenges, and Future Directions

Arxiv

1+阅读 · 1月29日

相关基金

基于信号理论和众包的社交媒体平台安全性和可信度群体评估方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

支持智能终端通信的物联网管控机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

理性安全两方计算协议设计与安全性证明

国家自然科学基金

0+阅读 · 2015年12月31日

可信工业控制系统中信任冷启动方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

可信多云协作关键安全问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

流密码可约性高效判别算法存在性的研究

国家自然科学基金

0+阅读 · 2015年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

智能视频监控中图像超分辨率重建关键技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员