CogniAlign: Survivability-Grounded Multi-Agent Moral Reasoning for Safe and Transparent AI - 专知论文

会员服务 ·

0

生存性 · AI · 结构 · 结构化 · 智能体 ·

CogniAlign: Survivability-Grounded Multi-Agent Moral Reasoning for Safe and Transparent AI

翻译：CogniAlign：基于生存性的多智能体道德推理框架，实现安全透明的AI

Hasin Jawad Ali,Ilhamul Azam,Ajwad Abrar,Md. Kamrul Hasan,Hasan Mahmud

from arxiv, Under Review

The challenge of aligning artificial intelligence (AI) with human values persists due to the abstract and often conflicting nature of moral principles and the opacity of existing approaches. This paper introduces CogniAlign, a multi-agent deliberation framework based on naturalistic moral realism, that grounds moral reasoning in survivability, defined across individual and collective dimensions, and operationalizes it through structured deliberations among discipline-specific scientist agents. Each agent, representing neuroscience, psychology, sociology, and evolutionary biology, provides arguments and rebuttals that are synthesized by an arbiter into transparent and empirically anchored judgments. As a proof-of-concept study, we evaluate CogniAlign on classic and novel moral questions and compare its outputs against GPT-4o using a five-part ethical audit framework with the help of three experts. Results show that CogniAlign consistently outperforms the baseline across more than sixty moral questions, with average performance gains of 12.2 points in analytic quality, 31.2 points in decisiveness, and 15 points in depth of explanation. In the Heinz dilemma, for example, CogniAlign achieved an overall score of 79 compared to GPT-4o's 65.8, demonstrating a decisive advantage in handling moral reasoning. Through transparent and structured reasoning, CogniAlign demonstrates the feasibility of an auditable approach to AI alignment, though certain challenges still remain.

翻译：由于道德原则的抽象性、内在冲突性以及现有方法的不可解释性，将人工智能（AI）与人类价值观对齐的挑战依然存在。本文提出CogniAlign，一个基于自然主义道德实在论的多智能体审议框架。该框架将道德推理建立在生存性之上——生存性被定义为涵盖个体与集体两个维度，并通过代表不同学科（神经科学、心理学、社会学和进化生物学）的科学家智能体之间的结构化审议来实现。每个智能体提供论点和反驳，由一名仲裁者将其综合成透明且基于经验的判断。作为一项概念验证研究，我们在经典及新颖的道德问题上评估CogniAlign，并在三位专家的协助下，使用包含五个维度的伦理审计框架将其输出与GPT-4o进行比较。结果表明，在超过六十个道德问题上，CogniAlign始终优于基线模型，在分析质量、决策明确性和解释深度方面的平均性能提升分别为12.2分、31.2分和15分。例如，在海因茨困境中，CogniAlign的总得分为79，而GPT-4o为65.8，显示出其在处理道德推理方面的决定性优势。通过透明且结构化的推理过程，CogniAlign展示了一种可审计的AI对齐方法的可行性，尽管某些挑战仍然存在。

0

相关内容

生存性

保护网络物理系统中的 AI 智能体：关于环境交互、深度伪造威胁及其防御技术的综述

保护网络物理系统中的 AI 智能体：关于环境交互、深度伪造威胁及其防御技术的综述

专知会员服务

10+阅读 · 2月15日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

68+阅读 · 1月6日

《在单智能体与多智能体AI系统中融入人类合理性》100页

《在单智能体与多智能体AI系统中融入人类合理性》100页

专知会员服务

31+阅读 · 2025年5月10日

人工智能伦理风险与治理研究

人工智能伦理风险与治理研究

专知会员服务

20+阅读 · 2025年4月22日

《面向道义推理DevOps的人类-人工智能交流（CODORD）》DARPA项目slides

《面向道义推理DevOps的人类-人工智能交流（CODORD）》DARPA项目slides

专知会员服务

20+阅读 · 2024年11月18日

人工智能伦理计算

人工智能伦理计算

专知会员服务

39+阅读 · 2023年10月13日

《实施机器伦理：使用机器学习培养有道德的机器》2022年180页博士论文，科克大学

《实施机器伦理：使用机器学习培养有道德的机器》2022年180页博士论文，科克大学

专知会员服务

22+阅读 · 2023年1月28日

《新一代人工智能伦理规范》发布

专知会员服务

43+阅读 · 2021年9月28日

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

专知会员服务

38+阅读 · 2020年1月13日

【IJCAI 2019】人工智能中的认知推理（Epistemic reasoning in AI），法国雷恩François Schwarzentruber，Tristan Charrier

【IJCAI 2019】人工智能中的认知推理（Epistemic reasoning in AI），法国雷恩François Schwarzentruber，Tristan Charrier

专知会员服务

22+阅读 · 2019年8月10日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

AI的未来不是大模型，也不是端到端：Meta向我们证明了这一点

AI的未来不是大模型，也不是端到端：Meta向我们证明了这一点

机器之心

15+阅读 · 2022年11月26日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

91+阅读 · 2022年4月17日

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

专知

98+阅读 · 2022年3月7日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

【混合智能】人机混合智能的哲学思考

【混合智能】人机混合智能的哲学思考

产业智能官

12+阅读 · 2018年10月28日

智能时代如何构建金融反欺诈体系？

智能时代如何构建金融反欺诈体系？

数据猿

12+阅读 · 2018年3月26日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

基于演化博弈的多智能体环形编队的理论与实验研究

国家自然科学基金

23+阅读 · 2015年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

Caging the Agents: A Zero Trust Security Architecture for Autonomous AI in Healthcare

Arxiv

0+阅读 · 3月18日

Literary Narrative as Moral Probe : A Cross-System Framework for Evaluating AI Ethical Reasoning and Refusal Behavior

Arxiv

0+阅读 · 3月13日

ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI

Arxiv

0+阅读 · 2月21日

Sovereign Agents: Towards Infrastructural Sovereignty and Diffused Accountability in Decentralized AI

Arxiv

0+阅读 · 2月16日

Differentiable Modal Logic for Multi-Agent Diagnosis, Orchestration and Communication

Arxiv

0+阅读 · 2月12日

Agentic AI for Cybersecurity: A Meta-Cognitive Architecture for Governable Autonomy

Arxiv

1+阅读 · 2月12日

Agentifying Agentic AI

Arxiv

0+阅读 · 2月10日

Dynamics of Moral Behavior in Heterogeneous Populations of Learning Agents

Arxiv

0+阅读 · 2月9日

Structural transparency of societal AI alignment through Institutional Logics

Arxiv

0+阅读 · 2月9日

Human Society-Inspired Approaches to Agentic AI Security: The 4C Framework

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

反无人机措施与海湾局势：乌克兰战争对抗无人机的经验教训

反无人机措施与海湾局势：乌克兰战争对抗无人机的经验教训

专知会员服务

2+阅读 · 今天15:33

【CVPR 2026】语义泡沫：统一空间与语义场景分解

【CVPR 2026】语义泡沫：统一空间与语义场景分解

专知会员服务

2+阅读 · 今天15:33

【综述】智能体AI如何重塑软件开发生命周期：从代码补全到人类监督下的委托执行

【综述】智能体AI如何重塑软件开发生命周期：从代码补全到人类监督下的委托执行

专知会员服务

1+阅读 · 今天15:31

【CVPR Highlight 2026】 VPDR：驯服噪声诱导的原型退化，实现隐私保护个性化联邦微调

【CVPR Highlight 2026】 VPDR：驯服噪声诱导的原型退化，实现隐私保护个性化联邦微调

专知会员服务

6+阅读 · 今天4:33

【博士论文】迈向可靠神经网络：基于物理结构与贝叶斯不确定性

【博士论文】迈向可靠神经网络：基于物理结构与贝叶斯不确定性

专知会员服务

7+阅读 · 5月1日

《图世界模型：概念、分类体系与未来方向》

《图世界模型：概念、分类体系与未来方向》

专知会员服务

10+阅读 · 5月1日

Palantir AIP平台：连接智能体与决策

Palantir AIP平台：连接智能体与决策

专知会员服务

16+阅读 · 5月1日

《应急响应数字孪生：整合增强现实与实时位置数据的模拟辅助决策》技术报告

《应急响应数字孪生：整合增强现实与实时位置数据的模拟辅助决策》技术报告

专知会员服务

7+阅读 · 5月1日

《通用基于模型的系统工程交会与接近操作任务规划器》130页

《通用基于模型的系统工程交会与接近操作任务规划器》130页

专知会员服务

7+阅读 · 5月1日

对ARL-TR-9623报告《人机自主协同团队信任工具包（HAT³）软件开发文档与用户指南》的增补材料

对ARL-TR-9623报告《人机自主协同团队信任工具包（HAT³）软件开发文档与用户指南》的增补材料

专知会员服务

8+阅读 · 5月1日

《美海军软件测试战略》90页slides

《美海军软件测试战略》90页slides

专知会员服务

12+阅读 · 5月1日

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

专知会员服务

11+阅读 · 4月30日

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

专知会员服务

9+阅读 · 4月30日

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

12+阅读 · 4月30日

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

22+阅读 · 4月30日

相关VIP内容

保护网络物理系统中的 AI 智能体：关于环境交互、深度伪造威胁及其防御技术的综述

保护网络物理系统中的 AI 智能体：关于环境交互、深度伪造威胁及其防御技术的综述

专知会员服务

10+阅读 · 2月15日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

68+阅读 · 1月6日

《在单智能体与多智能体AI系统中融入人类合理性》100页

《在单智能体与多智能体AI系统中融入人类合理性》100页

专知会员服务

31+阅读 · 2025年5月10日

人工智能伦理风险与治理研究

人工智能伦理风险与治理研究

专知会员服务

20+阅读 · 2025年4月22日

《面向道义推理DevOps的人类-人工智能交流（CODORD）》DARPA项目slides

《面向道义推理DevOps的人类-人工智能交流（CODORD）》DARPA项目slides

专知会员服务

20+阅读 · 2024年11月18日

人工智能伦理计算

人工智能伦理计算

专知会员服务

39+阅读 · 2023年10月13日

《实施机器伦理：使用机器学习培养有道德的机器》2022年180页博士论文，科克大学

《实施机器伦理：使用机器学习培养有道德的机器》2022年180页博士论文，科克大学

专知会员服务

22+阅读 · 2023年1月28日

《新一代人工智能伦理规范》发布

专知会员服务

43+阅读 · 2021年9月28日

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

专知会员服务

38+阅读 · 2020年1月13日

【IJCAI 2019】人工智能中的认知推理（Epistemic reasoning in AI），法国雷恩François Schwarzentruber，Tristan Charrier

【IJCAI 2019】人工智能中的认知推理（Epistemic reasoning in AI），法国雷恩François Schwarzentruber，Tristan Charrier

专知会员服务

22+阅读 · 2019年8月10日

热门VIP内容

开通专知VIP会员享更多权益服务

【CVPR 2026】语义泡沫：统一空间与语义场景分解

【CVPR Highlight 2026】 VPDR：驯服噪声诱导的原型退化，实现隐私保护个性化联邦微调

反无人机措施与海湾局势：乌克兰战争对抗无人机的经验教训

【综述】智能体AI如何重塑软件开发生命周期：从代码补全到人类监督下的委托执行

相关资讯

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

AI的未来不是大模型，也不是端到端：Meta向我们证明了这一点

AI的未来不是大模型，也不是端到端：Meta向我们证明了这一点

机器之心

15+阅读 · 2022年11月26日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

91+阅读 · 2022年4月17日

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

专知

98+阅读 · 2022年3月7日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

【混合智能】人机混合智能的哲学思考

【混合智能】人机混合智能的哲学思考

产业智能官

12+阅读 · 2018年10月28日

智能时代如何构建金融反欺诈体系？

智能时代如何构建金融反欺诈体系？

数据猿

12+阅读 · 2018年3月26日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

相关论文

Caging the Agents: A Zero Trust Security Architecture for Autonomous AI in Healthcare

Arxiv

0+阅读 · 3月18日

Literary Narrative as Moral Probe : A Cross-System Framework for Evaluating AI Ethical Reasoning and Refusal Behavior

Arxiv

0+阅读 · 3月13日

ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI

Arxiv

0+阅读 · 2月21日

Sovereign Agents: Towards Infrastructural Sovereignty and Diffused Accountability in Decentralized AI

Arxiv

0+阅读 · 2月16日

Differentiable Modal Logic for Multi-Agent Diagnosis, Orchestration and Communication

Arxiv

0+阅读 · 2月12日

Agentic AI for Cybersecurity: A Meta-Cognitive Architecture for Governable Autonomy

Arxiv

1+阅读 · 2月12日

Agentifying Agentic AI

Arxiv

0+阅读 · 2月10日

Dynamics of Moral Behavior in Heterogeneous Populations of Learning Agents

Arxiv

0+阅读 · 2月9日

Structural transparency of societal AI alignment through Institutional Logics

Arxiv

0+阅读 · 2月9日

Human Society-Inspired Approaches to Agentic AI Security: The 4C Framework

Arxiv

0+阅读 · 2月2日

相关基金

基于演化博弈的多智能体环形编队的理论与实验研究

国家自然科学基金

23+阅读 · 2015年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员