The project of aligning machine behavior with human values raises a basic problem: whose moral expectations should guide AI decision-making? Much alignment research assumes that the appropriate benchmark is how humans themselves would act in a given situation. Studies of agent-type value forks challenge this assumption by showing that people do not always judge humans and AI systems identically.This paper extends that challenge by examining two further possibilities: first, that evaluations of AI behavior change when its human origins are made visible; and second, that people judge the humans who program AI systems differently from either the machines or the human actors they are compared against. An experiment with 1,002 U.S. adults measured moral judgments in a runaway mine train scenario, varying the subject of evaluation across four conditions: a repairman, a repair robot, a repair robot programmed by company engineers, and company engineers programming a repair robot. We find no significant difference in evaluations of the repairman and the robot. However, judgments shifted substantially when the robot's actions were described as the product of human design. Participants exhibited markedly more deontological, rule-based reasoning when evaluating either the programmed robot or the engineers who programmed it, suggesting that rendering human agency visible activates heightened moral constraints. These findings indicate that people may evaluate humans, AI systems acting in the same situation, and the humans who design them in meaningfully different ways. The fact that these evaluations do not necessarily converge gives rise to the alignment target problem: which normative target should guide the development of artificial moral agents in high-stakes domains, and whether these plural judgments can be reconciled within a coherent account of value alignment.


翻译:将机器行为与人类价值观对齐的项目引发了一个基本问题:人工智能的决策应遵循谁的道德期望?许多对齐研究假设,适当的基准是人类在特定情境中自身会如何行动。对智能体类型价值分岔的研究质疑了这一假设,表明人们并非总是以相同方式评判人类与人工智能系统。本文通过考察两种进一步的可能性来拓展这一挑战:其一,当人工智能行为的人类来源被揭示时,对其评价是否会发生变化;其二,人们是否会对编程人工智能系统的人类作出不同于机器或人类行动者的评判。一项针对1002名美国成年人的实验测量了在失控矿车场景中的道德判断,通过四种条件改变评价对象:修理工、修理机器人、由公司工程师编程的修理机器人,以及编程修理机器人的公司工程师。我们发现,对修理工与机器人的评价无显著差异。然而,当机器人行为被描述为人类设计的产物时,判断发生重大转变。参与者在评价被编程的机器人或编程机器人的工程师时,表现出显著更强的道义论(基于规则)推理,这表明使人类能动性可视化会激活更强的道德约束。这些发现表明,人们可能以意义不同的方式评价在相同情境中行动的人类、人工智能系统及其设计者。这些评价未必趋同的事实引发了对齐目标问题:在高风险领域,应依据何种规范性目标来发展人工道德智能体,以及这些多元判断能否在连贯的价值对齐框架内得到调和。

0
下载
关闭预览

相关内容

《在单智能体与多智能体AI系统中融入人类合理性》100页
112页《人工智能对齐:全面性综述》中文版
专知会员服务
159+阅读 · 2024年2月1日
《人工智能辅助决策面临的三大挑战》
专知会员服务
86+阅读 · 2023年12月15日
大模型道德价值观对齐问题剖析
专知会员服务
79+阅读 · 2023年10月3日
【混合智能】人机混合智能的哲学思考
产业智能官
12+阅读 · 2018年10月28日
一文读懂智能对话系统
数据派THU
16+阅读 · 2018年1月27日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
52+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Arxiv
0+阅读 · 6月1日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
52+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员