The challenge of aligning artificial intelligence (AI) with human values persists due to the abstract and often conflicting nature of moral principles and the opacity of existing approaches. This paper introduces CogniAlign, a multi-agent deliberation framework based on naturalistic moral realism, that grounds moral reasoning in survivability, defined across individual and collective dimensions, and operationalizes it through structured deliberations among discipline-specific scientist agents. Each agent, representing neuroscience, psychology, sociology, and evolutionary biology, provides arguments and rebuttals that are synthesized by an arbiter into transparent and empirically anchored judgments. As a proof-of-concept study, we evaluate CogniAlign on classic and novel moral questions and compare its outputs against GPT-4o using a five-part ethical audit framework with the help of three experts. Results show that CogniAlign consistently outperforms the baseline across more than sixty moral questions, with average performance gains of 12.2 points in analytic quality, 31.2 points in decisiveness, and 15 points in depth of explanation. In the Heinz dilemma, for example, CogniAlign achieved an overall score of 79 compared to GPT-4o's 65.8, demonstrating a decisive advantage in handling moral reasoning. Through transparent and structured reasoning, CogniAlign demonstrates the feasibility of an auditable approach to AI alignment, though certain challenges still remain.


翻译:暂无翻译

0
下载
关闭预览

相关内容

人工智能伦理风险与治理研究
专知会员服务
20+阅读 · 2025年4月22日
生成式AI:认知对抗的新武器
专知会员服务
83+阅读 · 2023年12月29日
【课程推荐】 人工普遍智能(Artificial General Intelligence)
专知会员服务
12+阅读 · 2019年11月10日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
AI新方向:对抗攻击
网易智能菌
10+阅读 · 2018年11月14日
AI综述专栏 | 深度神经网络加速与压缩
人工智能前沿讲习班
32+阅读 · 2018年10月31日
AI综述专栏|多模态学习研究进展综述
人工智能前沿讲习班
64+阅读 · 2018年7月13日
AI综述专栏|跨领域推荐系统文献综述(下)
人工智能前沿讲习班
14+阅读 · 2018年5月18日
AI综述专栏 | 跨领域推荐系统文献综述(上)
人工智能前沿讲习班
13+阅读 · 2018年5月16日
CCCF专栏文章:人机共融智能
中国计算机学会
15+阅读 · 2017年12月21日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
333+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关VIP内容
人工智能伦理风险与治理研究
专知会员服务
20+阅读 · 2025年4月22日
生成式AI:认知对抗的新武器
专知会员服务
83+阅读 · 2023年12月29日
【课程推荐】 人工普遍智能(Artificial General Intelligence)
专知会员服务
12+阅读 · 2019年11月10日
相关资讯
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
AI新方向:对抗攻击
网易智能菌
10+阅读 · 2018年11月14日
AI综述专栏 | 深度神经网络加速与压缩
人工智能前沿讲习班
32+阅读 · 2018年10月31日
AI综述专栏|多模态学习研究进展综述
人工智能前沿讲习班
64+阅读 · 2018年7月13日
AI综述专栏|跨领域推荐系统文献综述(下)
人工智能前沿讲习班
14+阅读 · 2018年5月18日
AI综述专栏 | 跨领域推荐系统文献综述(上)
人工智能前沿讲习班
13+阅读 · 2018年5月16日
CCCF专栏文章:人机共融智能
中国计算机学会
15+阅读 · 2017年12月21日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
相关基金
国家自然科学基金
333+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员