Toward Safe and Responsible AI Agents: A Three-Pillar Model for Transparency, Accountability, and Trustworthiness - 专知论文

会员服务 ·

0

人工智能体 · 透明度 · 问责 · 问责性 · 智能体 ·

Toward Safe and Responsible AI Agents: A Three-Pillar Model for Transparency, Accountability, and Trustworthiness

翻译：迈向安全与负责任的人工智能体：基于透明度、问责性与可信度的三支柱模型

Edward C. Cheng,Jeshua Cheng,Alice Siu

from arxiv, 15 pages, 8 figures, conference paper

This paper presents a conceptual and operational framework for developing and operating safe and trustworthy AI agents based on a Three-Pillar Model grounded in transparency, accountability, and trustworthiness. Building on prior work in Human-in-the-Loop systems, reinforcement learning, and collaborative AI, the framework defines an evolutionary path toward autonomous agents that balances increasing automation with appropriate human oversight. The paper argues that safe agent autonomy must be achieved through progressive validation, analogous to the staged development of autonomous driving, rather than through immediate full automation. Transparency and accountability are identified as foundational requirements for establishing user trust and for mitigating known risks in generative AI systems, including hallucinations, data bias, and goal misalignment, such as the inversion problem. The paper further describes three ongoing work streams supporting this framework: public deliberation on AI agents conducted by the Stanford Deliberative Democracy Lab, cross-industry collaboration through the Safe AI Agent Consortium, and the development of open tooling for an agent operating environment aligned with the Three-Pillar Model. Together, these contributions provide both conceptual clarity and practical guidance for enabling the responsible evolution of AI agents that operate transparently, remain aligned with human values, and sustain societal trust.

翻译：本文提出了一个基于透明度、问责性与可信度三支柱模型的概念性与操作性框架，用于开发和运行安全可信的人工智能体。该框架建立在人在回路系统、强化学习和协作式人工智能的先前工作基础上，定义了一条通向自主智能体的演进路径，在提升自动化水平与保持适当人类监督之间取得平衡。本文主张，安全智能体自主性的实现必须通过渐进式验证——类似于自动驾驶的分阶段发展模式——而非立即实现完全自动化。透明度和问责性被确立为建立用户信任以及缓解生成式人工智能系统中已知风险（包括幻觉、数据偏见和目标错位，如逆转问题）的基础性要求。本文进一步描述了支持该框架的三个正在进行的工作方向：由斯坦福协商民主实验室开展的人工智能体公共审议、通过安全人工智能体联盟进行的跨行业协作，以及开发符合三支柱模型的智能体运行环境的开源工具。这些贡献共同为人工智能体的负责任演进提供了概念清晰度和实践指导，使其能够透明运作、保持与人类价值观的一致性并维持社会信任。

0

相关内容

人工智能体

人工智能体

智能体化 AI 与网络安全综述：挑战、机遇与用例原型

智能体化 AI 与网络安全综述：挑战、机遇与用例原型

专知会员服务

29+阅读 · 1月13日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

69+阅读 · 1月6日

智能体化人工智能：架构、应用及未来发展方向的综合综述

智能体化人工智能：架构、应用及未来发展方向的综合综述

专知会员服务

51+阅读 · 2025年12月1日

【博士论文】迈向负责任的人工智能：自主系统在安全性、公平性与可问责性方面的最新进展

【博士论文】迈向负责任的人工智能：自主系统在安全性、公平性与可问责性方面的最新进展

专知会员服务

20+阅读 · 2025年6月15日

《防务领域人工智能可信赖性：为防务开发负责任、符合伦理且可信赖的AI系统》欧洲防务局2025最新107页

《防务领域人工智能可信赖性：为防务开发负责任、符合伦理且可信赖的AI系统》欧洲防务局2025最新107页

专知会员服务

22+阅读 · 2025年5月14日

《结合机器人行为以实现安全、智能的执行》

《结合机器人行为以实现安全、智能的执行》

专知会员服务

16+阅读 · 2023年7月4日

【2023新书】制造业可信人工智能:智能生产伦理和以人为中心人工智能技术新浪潮综述，240页pdf

【2023新书】制造业可信人工智能:智能生产伦理和以人为中心人工智能技术新浪潮综述，240页pdf

专知会员服务

65+阅读 · 2023年5月18日

AI系统如何可信？CMU-Nicholas博士论文《以模型为中心的人工智能验证》200页阐述增强AI系统信任度以确保安全部署运行

AI系统如何可信？CMU-Nicholas博士论文《以模型为中心的人工智能验证》200页阐述增强AI系统信任度以确保安全部署运行

专知会员服务

67+阅读 · 2022年1月27日

【重磅】迈向可信赖的人工智能，59位作者，80页pdf阐述Trustworthy AI可验证声明的支持机制

【重磅】迈向可信赖的人工智能，59位作者，80页pdf阐述Trustworthy AI可验证声明的支持机制

专知会员服务

63+阅读 · 2020年4月16日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能，67页pdf402篇文献

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能，67页pdf402篇文献

专知会员服务

120+阅读 · 2019年12月27日

2022人工智能十大关键词: 从大模型到可信落地，附人工智能白皮书下载

2022人工智能十大关键词: 从大模型到可信落地，附人工智能白皮书下载

专知

10+阅读 · 2022年8月18日

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

专知

69+阅读 · 2022年7月20日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

面向人工智能的计算机体系结构

面向人工智能的计算机体系结构

计算机研究与发展

14+阅读 · 2019年6月6日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

【知识图谱】知识图谱+人工智能=新型网络信息体系

【知识图谱】知识图谱+人工智能=新型网络信息体系

产业智能官

14+阅读 · 2018年11月18日

一图了解人工智能知识体系大全-专知主题知识树人工智能可视化

一图了解人工智能知识体系大全-专知主题知识树人工智能可视化

专知

96+阅读 · 2017年9月18日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

基于信号理论和众包的社交媒体平台安全性和可信度群体评估方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向全生命周期的可信软件测度模型和过程改进工具研究

国家自然科学基金

0+阅读 · 2014年12月31日

互联网金融三维信任机制及参与者信任感知与交易决策

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Supporting software engineering tasks with agentic AI: Demonstration on document retrieval and test scenario generation

Arxiv

0+阅读 · 2月4日

Proactive Agents, Long-term User Context, VLM Annotation, Privacy Protection, Human-Computer Interaction

Arxiv

0+阅读 · 2月4日

Internet of Agentic AI: Incentive-Compatible Distributed Teaming and Workflow

Arxiv

0+阅读 · 2月3日

Human Society-Inspired Approaches to Agentic AI Security: The 4C Framework

Arxiv

0+阅读 · 2月2日

Interpreting Agentic Systems: Beyond Model Explanations to System-Level Accountability

Arxiv

0+阅读 · 1月23日

Towards AI Transparency and Accountability: A Global Framework for Exchanging Information on AI Systems

Arxiv

0+阅读 · 1月20日

Agentic Artificial Intelligence (AI): Architectures, Taxonomies, and Evaluation of Large Language Model Agents

Arxiv

0+阅读 · 1月18日

A Framework for Responsible AI Systems: Building Societal Trust through Domain Definition, Trustworthy AI Design, Auditability, Accountability, and Governance

Arxiv

0+阅读 · 1月8日

A Survey of Agentic AI and Cybersecurity: Challenges, Opportunities and Use-case Prototypes

Arxiv

4+阅读 · 1月8日

Towards Provably Secure Generative AI: Reliable Consensus Sampling

Arxiv

0+阅读 · 2025年12月31日

VIP会员

文章信息

相关主题

人工智能体

最新内容

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

3+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

3+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

4+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

10+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

6+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

7+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

8+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

11+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

6+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

6+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

8+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

6+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

9+阅读 · 5月29日

相关VIP内容

智能体化 AI 与网络安全综述：挑战、机遇与用例原型

智能体化 AI 与网络安全综述：挑战、机遇与用例原型

专知会员服务

29+阅读 · 1月13日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

69+阅读 · 1月6日

智能体化人工智能：架构、应用及未来发展方向的综合综述

智能体化人工智能：架构、应用及未来发展方向的综合综述

专知会员服务

51+阅读 · 2025年12月1日

【博士论文】迈向负责任的人工智能：自主系统在安全性、公平性与可问责性方面的最新进展

【博士论文】迈向负责任的人工智能：自主系统在安全性、公平性与可问责性方面的最新进展

专知会员服务

20+阅读 · 2025年6月15日

《防务领域人工智能可信赖性：为防务开发负责任、符合伦理且可信赖的AI系统》欧洲防务局2025最新107页

《防务领域人工智能可信赖性：为防务开发负责任、符合伦理且可信赖的AI系统》欧洲防务局2025最新107页

专知会员服务

22+阅读 · 2025年5月14日

《结合机器人行为以实现安全、智能的执行》

《结合机器人行为以实现安全、智能的执行》

专知会员服务

16+阅读 · 2023年7月4日

【2023新书】制造业可信人工智能:智能生产伦理和以人为中心人工智能技术新浪潮综述，240页pdf

【2023新书】制造业可信人工智能:智能生产伦理和以人为中心人工智能技术新浪潮综述，240页pdf

专知会员服务

65+阅读 · 2023年5月18日

AI系统如何可信？CMU-Nicholas博士论文《以模型为中心的人工智能验证》200页阐述增强AI系统信任度以确保安全部署运行

AI系统如何可信？CMU-Nicholas博士论文《以模型为中心的人工智能验证》200页阐述增强AI系统信任度以确保安全部署运行

专知会员服务

67+阅读 · 2022年1月27日

【重磅】迈向可信赖的人工智能，59位作者，80页pdf阐述Trustworthy AI可验证声明的支持机制

【重磅】迈向可信赖的人工智能，59位作者，80页pdf阐述Trustworthy AI可验证声明的支持机制

专知会员服务

63+阅读 · 2020年4月16日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能，67页pdf402篇文献

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能，67页pdf402篇文献

专知会员服务

120+阅读 · 2019年12月27日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

美以伊战争：首次人工智能战争——军事自主性困境

BES：让语言模型通过双向进化搜索自我改进

以色列-美国-伊朗战争中的无人机：关键要点

相关资讯

2022人工智能十大关键词: 从大模型到可信落地，附人工智能白皮书下载

2022人工智能十大关键词: 从大模型到可信落地，附人工智能白皮书下载

专知

10+阅读 · 2022年8月18日

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

专知

69+阅读 · 2022年7月20日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

面向人工智能的计算机体系结构

面向人工智能的计算机体系结构

计算机研究与发展

14+阅读 · 2019年6月6日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

【知识图谱】知识图谱+人工智能=新型网络信息体系

【知识图谱】知识图谱+人工智能=新型网络信息体系

产业智能官

14+阅读 · 2018年11月18日

一图了解人工智能知识体系大全-专知主题知识树人工智能可视化

一图了解人工智能知识体系大全-专知主题知识树人工智能可视化

专知

96+阅读 · 2017年9月18日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Supporting software engineering tasks with agentic AI: Demonstration on document retrieval and test scenario generation

Arxiv

0+阅读 · 2月4日

Proactive Agents, Long-term User Context, VLM Annotation, Privacy Protection, Human-Computer Interaction

Arxiv

0+阅读 · 2月4日

Internet of Agentic AI: Incentive-Compatible Distributed Teaming and Workflow

Arxiv

0+阅读 · 2月3日

Human Society-Inspired Approaches to Agentic AI Security: The 4C Framework

Arxiv

0+阅读 · 2月2日

Interpreting Agentic Systems: Beyond Model Explanations to System-Level Accountability

Arxiv

0+阅读 · 1月23日

Towards AI Transparency and Accountability: A Global Framework for Exchanging Information on AI Systems

Arxiv

0+阅读 · 1月20日

Agentic Artificial Intelligence (AI): Architectures, Taxonomies, and Evaluation of Large Language Model Agents

Arxiv

0+阅读 · 1月18日

A Framework for Responsible AI Systems: Building Societal Trust through Domain Definition, Trustworthy AI Design, Auditability, Accountability, and Governance

Arxiv

0+阅读 · 1月8日

A Survey of Agentic AI and Cybersecurity: Challenges, Opportunities and Use-case Prototypes

Arxiv

4+阅读 · 1月8日

Towards Provably Secure Generative AI: Reliable Consensus Sampling

Arxiv

0+阅读 · 2025年12月31日

相关基金

基于信号理论和众包的社交媒体平台安全性和可信度群体评估方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向全生命周期的可信软件测度模型和过程改进工具研究

国家自然科学基金

0+阅读 · 2014年12月31日

互联网金融三维信任机制及参与者信任感知与交易决策

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员