Machine Behavior in Relational Moral Dilemmas: Moral Rightness, Predicted Human Behavior, and Model Decisions - 专知论文

会员服务 ·

0

正确性 · 模型决策 · 一致 · 语言模型 · 情境 ·

Machine Behavior in Relational Moral Dilemmas: Moral Rightness, Predicted Human Behavior, and Model Decisions

翻译：关系道德困境中的机器行为：道德正确性、预测的人类行为与模型决策

Jiseon Kim,Jea Kwon,Luiz Felipe Vecchietti,Wenchao Dong,Jaehong Kim,Meeyoung Cha

from arxiv, ACL-Findings 2026

Human moral judgment is context-dependent and modulated by interpersonal relationships. As large language models (LLMs) increasingly function as decision-support systems, determining whether they encode these social nuances is critical. We characterize machine behavior using the Whistleblower's Dilemma by varying two experimental dimensions: crime severity and relational closeness. Our study evaluates three distinct perspectives: (1) moral rightness (prescriptive norms), (2) predicted human behavior (descriptive social expectations), and (3) autonomous model decision-making. By analyzing the reasoning processes, we identify a clear cross-perspective divergence: while moral rightness remains consistently fairness-oriented, predicted human behavior shifts significantly toward loyalty as relational closeness increases. Crucially, model decisions align with moral rightness judgments rather than their own behavioral predictions. This inconsistency suggests that LLM decision-making prioritizes rigid, prescriptive rules over the social sensitivity present in their internal world-modeling, which poses a gap that may lead to significant misalignments in real-world deployments.

翻译：人类道德判断具有情境依赖性，并受到人际关系的调节。随着大型语言模型日益充当决策支持系统，确定它们是否编码了这些社会细微差别至关重要。我们通过改变两个实验维度——犯罪严重性和关系亲密度——利用告密者困境来表征机器行为。我们的研究评估了三种不同的视角：（1）道德正确性（规范性规范），（2）预测的人类行为（描述性社会期望），以及（3）自主模型决策。通过分析推理过程，我们识别出清晰的跨视角分歧：虽然道德正确性始终以公平为导向，预测的人类行为则随着关系亲密度的增加显著转向忠诚。关键的是，模型决策与道德正确性判断一致，而非其自身的预测行为。这种不一致表明，大语言模型的决策优先考虑僵化的规范性规则，而非其内部世界模型中存在的社会敏感性，这构成了一个可能导致实际部署中出现显著错配的差距。

0

相关内容

正确性

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

专知会员服务

17+阅读 · 6月12日

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

11+阅读 · 4月23日

《迈向真正的机器人队友：推断与运用认知状态以实现新型人类-自主系统协作能力》最新博士论文

《迈向真正的机器人队友：推断与运用认知状态以实现新型人类-自主系统协作能力》最新博士论文

专知会员服务

26+阅读 · 2025年9月27日

《人类与机器：兵棋推演中人类专家与大语言模型的行为差异》

《人类与机器：兵棋推演中人类专家与大语言模型的行为差异》

专知会员服务

34+阅读 · 2024年10月16日

迈向可信的人工智能：伦理和稳健的大型语言模型综述

迈向可信的人工智能：伦理和稳健的大型语言模型综述

专知会员服务

39+阅读 · 2024年7月28日

【博士论文】语言模型与人类偏好对齐，148页pdf

【博士论文】语言模型与人类偏好对齐，148页pdf

专知会员服务

32+阅读 · 2024年4月21日

《实施机器伦理：使用机器学习培养有道德的机器》2022年180页博士论文，科克大学

《实施机器伦理：使用机器学习培养有道德的机器》2022年180页博士论文，科克大学

专知会员服务

23+阅读 · 2023年1月28日

【博士论文】《网络系统中安全资源分配的博弈论框架中行为决策效应》普渡大学2022最新论文

【博士论文】《网络系统中安全资源分配的博弈论框架中行为决策效应》普渡大学2022最新论文

专知会员服务

66+阅读 · 2022年9月22日

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

专知会员服务

30+阅读 · 2022年6月16日

【机器伦理学综述论文，37页pdf】Implementations in Machine Ethics: A Survey

专知会员服务

13+阅读 · 2020年1月23日

【AI与军事】机器学习的军事应用，一种文献计量视角

【AI与军事】机器学习的军事应用，一种文献计量视角

专知

55+阅读 · 2022年4月25日

让人工智能有情感的秘诀！清华权威报告看透情感计算【附下载】

让人工智能有情感的秘诀！清华权威报告看透情感计算【附下载】

人工智能学家

21+阅读 · 2019年10月7日

《机器学习与公平性》新书发布，附127页PDF下载

《机器学习与公平性》新书发布，附127页PDF下载

专知

25+阅读 · 2019年9月13日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

为机器学习插上因果推理的翅膀：这是一本系统的因果推理开源书

为机器学习插上因果推理的翅膀：这是一本系统的因果推理开源书

机器之心

34+阅读 · 2019年1月4日

北京大学何洋波博士《因果推断和因果图模型》机器学习报告

北京大学何洋波博士《因果推断和因果图模型》机器学习报告

专知

103+阅读 · 2018年11月11日

如何用机器学习精准辨别“背景”和“目标”

如何用机器学习精准辨别“背景”和“目标”

论智

10+阅读 · 2018年10月22日

机器人也能拥有人类情感：“情感计算”让机器人学会“读心术”

机器人也能拥有人类情感：“情感计算”让机器人学会“读心术”

人工智能学家

11+阅读 · 2018年5月5日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

基于时空模式的复杂行为识别方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

人体行为识别的时空耦合随机图模型及其高效推理算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

定位系统细胞启发的机器人情景认知地图构建与行为规划研究

国家自然科学基金

3+阅读 · 2015年12月31日

人类双向选择行为的统计特征分析与预测方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

社交网络中信息主体的行为模式分析及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Scaling Laws for Moral Machine Judgment in Large Language Models

Arxiv

0+阅读 · 4月30日

Learning Under Moral Hazard with Instrumental Regression and Generalized Method of Moments

Arxiv

0+阅读 · 4月27日

The Alignment Target Problem: Divergent Moral Judgments of Humans, AI Systems, and Their Designers

Arxiv

0+阅读 · 4月27日

A closer look at how large language models trust humans: patterns and biases

Arxiv

0+阅读 · 4月15日

Robots that learn to evaluate models of collective behavior

Arxiv

0+阅读 · 4月8日

Between Help and Harm: An Evaluation of Mental Health Crisis Handling by LLMs

Arxiv

0+阅读 · 4月8日

Between Rules and Reality: On the Context Sensitivity of LLM Moral Judgment

Arxiv

0+阅读 · 3月24日

From Morality Installation in LLMs to LLMs in Morality-as-a-System

Arxiv

0+阅读 · 3月24日

Emotionally Charged, Logically Blurred: AI-driven Emotional Framing Impairs Human Fallacy Detection

Arxiv

0+阅读 · 3月23日

From Accuracy to Readiness: Metrics and Benchmarks for Human-AI Decision-Making

Arxiv

0+阅读 · 3月19日

VIP会员

文章信息

相关主题

最新内容

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

0+阅读 · 5分钟前

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

0+阅读 · 9分钟前

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

1+阅读 · 12分钟前

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

7+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

13+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

8+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

13+阅读 · 6月17日

相关VIP内容

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

专知会员服务

17+阅读 · 6月12日

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

11+阅读 · 4月23日

《迈向真正的机器人队友：推断与运用认知状态以实现新型人类-自主系统协作能力》最新博士论文

《迈向真正的机器人队友：推断与运用认知状态以实现新型人类-自主系统协作能力》最新博士论文

专知会员服务

26+阅读 · 2025年9月27日

《人类与机器：兵棋推演中人类专家与大语言模型的行为差异》

《人类与机器：兵棋推演中人类专家与大语言模型的行为差异》

专知会员服务

34+阅读 · 2024年10月16日

迈向可信的人工智能：伦理和稳健的大型语言模型综述

迈向可信的人工智能：伦理和稳健的大型语言模型综述

专知会员服务

39+阅读 · 2024年7月28日

【博士论文】语言模型与人类偏好对齐，148页pdf

【博士论文】语言模型与人类偏好对齐，148页pdf

专知会员服务

32+阅读 · 2024年4月21日

《实施机器伦理：使用机器学习培养有道德的机器》2022年180页博士论文，科克大学

《实施机器伦理：使用机器学习培养有道德的机器》2022年180页博士论文，科克大学

专知会员服务

23+阅读 · 2023年1月28日

【博士论文】《网络系统中安全资源分配的博弈论框架中行为决策效应》普渡大学2022最新论文

【博士论文】《网络系统中安全资源分配的博弈论框架中行为决策效应》普渡大学2022最新论文

专知会员服务

66+阅读 · 2022年9月22日

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

专知会员服务

30+阅读 · 2022年6月16日

【机器伦理学综述论文，37页pdf】Implementations in Machine Ethics: A Survey

专知会员服务

13+阅读 · 2020年1月23日

热门VIP内容

开通专知VIP会员享更多权益服务

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

相关资讯

【AI与军事】机器学习的军事应用，一种文献计量视角

【AI与军事】机器学习的军事应用，一种文献计量视角

专知

55+阅读 · 2022年4月25日

让人工智能有情感的秘诀！清华权威报告看透情感计算【附下载】

让人工智能有情感的秘诀！清华权威报告看透情感计算【附下载】

人工智能学家

21+阅读 · 2019年10月7日

《机器学习与公平性》新书发布，附127页PDF下载

《机器学习与公平性》新书发布，附127页PDF下载

专知

25+阅读 · 2019年9月13日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

为机器学习插上因果推理的翅膀：这是一本系统的因果推理开源书

为机器学习插上因果推理的翅膀：这是一本系统的因果推理开源书

机器之心

34+阅读 · 2019年1月4日

北京大学何洋波博士《因果推断和因果图模型》机器学习报告

北京大学何洋波博士《因果推断和因果图模型》机器学习报告

专知

103+阅读 · 2018年11月11日

如何用机器学习精准辨别“背景”和“目标”

如何用机器学习精准辨别“背景”和“目标”

论智

10+阅读 · 2018年10月22日

机器人也能拥有人类情感：“情感计算”让机器人学会“读心术”

机器人也能拥有人类情感：“情感计算”让机器人学会“读心术”

人工智能学家

11+阅读 · 2018年5月5日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

相关论文

Scaling Laws for Moral Machine Judgment in Large Language Models

Arxiv

0+阅读 · 4月30日

Learning Under Moral Hazard with Instrumental Regression and Generalized Method of Moments

Arxiv

0+阅读 · 4月27日

The Alignment Target Problem: Divergent Moral Judgments of Humans, AI Systems, and Their Designers

Arxiv

0+阅读 · 4月27日

A closer look at how large language models trust humans: patterns and biases

Arxiv

0+阅读 · 4月15日

Robots that learn to evaluate models of collective behavior

Arxiv

0+阅读 · 4月8日

Between Help and Harm: An Evaluation of Mental Health Crisis Handling by LLMs

Arxiv

0+阅读 · 4月8日

Between Rules and Reality: On the Context Sensitivity of LLM Moral Judgment

Arxiv

0+阅读 · 3月24日

From Morality Installation in LLMs to LLMs in Morality-as-a-System

Arxiv

0+阅读 · 3月24日

Emotionally Charged, Logically Blurred: AI-driven Emotional Framing Impairs Human Fallacy Detection

Arxiv

0+阅读 · 3月23日

From Accuracy to Readiness: Metrics and Benchmarks for Human-AI Decision-Making

Arxiv

0+阅读 · 3月19日

相关基金

基于时空模式的复杂行为识别方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

人体行为识别的时空耦合随机图模型及其高效推理算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

定位系统细胞启发的机器人情景认知地图构建与行为规划研究

国家自然科学基金

3+阅读 · 2015年12月31日

人类双向选择行为的统计特征分析与预测方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

社交网络中信息主体的行为模式分析及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员