Scaling Laws for Moral Machine Judgment in Large Language Models - 专知论文

会员服务 ·

0

缩放 · 系统 · Scaling Law · 语言模型 · 一致 ·

Scaling Laws for Moral Machine Judgment in Large Language Models

翻译：大规模语言模型中道德机器判断的缩放定律

Kazuhiro Takemoto

from arxiv, 12 pages, 4 figures, 3 tables

Autonomous systems increasingly require moral judgment capabilities, yet whether these capabilities scale predictably with model size remains unexplored. We systematically evaluate 75 large language model configurations (0.27B--1000B parameters) using the Moral Machine framework, measuring alignment with human preferences in life-death dilemmas. We observe a consistent power-law relationship with distance from human preferences ($D$) decreasing as $D \propto S^{-0.10\pm0.01}$ ($R^2=0.50$, $p<0.001$) where $S$ is model size. Mixed-effects models confirm this relationship persists after controlling for model family and reasoning capabilities. Extended reasoning models show additional 16\% improvement beyond scale effects. The relationship holds across diverse architectures, while variance decreases at larger scales, indicating systematic emergence of more reliable moral judgment with computational scale. These findings extend scaling law research to value-based judgments and provide empirical foundations for artificial intelligence governance.

翻译：自主系统日益需要道德判断能力，然而这些能力是否随模型规模可预测地扩展仍未被探索。我们使用道德机器框架系统评估了75种大规模语言模型配置（0.27B--1000B参数），测量其在生死困境中与人类偏好的对齐程度。我们观察到与人类偏好距离（$D$）存在一致的幂律关系：$D \propto S^{-0.10\pm0.01}$（$R^2=0.50$，$p<0.001$），其中$S$为模型规模。混合效应模型证实该关系在控制模型系列和推理能力后依然存在。扩展推理模型显示出超越规模效应的额外16%改进。该关系在不同架构中均成立，而方差在更大规模时减小，表明更可靠的道德判断随计算规模系统性地涌现。这些发现将缩放定律研究延伸至价值判断领域，并为人工智能治理提供了实证基础。

0

相关内容

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

实时无人机指令处理：一种面向无人机系统的大语言模型方法

实时无人机指令处理：一种面向无人机系统的大语言模型方法

专知会员服务

19+阅读 · 2025年10月24日

大模型如何判决？从生成到判决：大型语言模型作为裁判的机遇与挑战

大模型如何判决？从生成到判决：大型语言模型作为裁判的机遇与挑战

专知会员服务

33+阅读 · 2024年11月29日

大规模语言模型的人类偏好学习综述

大规模语言模型的人类偏好学习综述

专知会员服务

42+阅读 · 2024年6月19日

【博士论文】理解大型语言模型：使用探针分类器和自合理化实现严格和有针对性的可解释性，109页pdf

【博士论文】理解大型语言模型：使用探针分类器和自合理化实现严格和有针对性的可解释性，109页pdf

专知会员服务

40+阅读 · 2024年4月14日

大模型如何高效？OSU等最新《高效大型语言模型》综述，详述模型压缩、预训练、微调、提示等技术

大模型如何高效？OSU等最新《高效大型语言模型》综述，详述模型压缩、预训练、微调、提示等技术

专知会员服务

70+阅读 · 2023年12月10日

大模型道德价值观对齐问题剖析

大模型道德价值观对齐问题剖析

专知会员服务

79+阅读 · 2023年10月3日

大型语言模型公平性

大型语言模型公平性

专知会员服务

41+阅读 · 2023年8月31日

《实施机器伦理：使用机器学习培养有道德的机器》2022年180页博士论文，科克大学

《实施机器伦理：使用机器学习培养有道德的机器》2022年180页博士论文，科克大学

专知会员服务

22+阅读 · 2023年1月28日

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

专知会员服务

18+阅读 · 2019年12月14日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

基于动态参数信道模型的OFDM系统时变信道估计

国家自然科学基金

0+阅读 · 2015年12月31日

人体行为识别的时空耦合随机图模型及其高效推理算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机路径选择模型的交通悖论特征研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

碰撞接触中的尺度缩放效应

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Bending the Scaling Law Curve in Large-Scale Recommendation Systems

Arxiv

0+阅读 · 2月19日

Generalizing Scaling Laws for Dense and Sparse Large Language Models

Arxiv

0+阅读 · 2月9日

Probabilistic Aggregation and Targeted Embedding Optimization for Collective Moral Reasoning in Large Language Models

Arxiv

0+阅读 · 2月6日

MM-SCALE: Grounded Multimodal Moral Reasoning via Scalar Judgment and Listwise Alignment

Arxiv

0+阅读 · 2月3日

Building Interpretable Models for Moral Decision-Making

Arxiv

0+阅读 · 2月3日

Scaling Laws for Moral Machine Judgment in Large Language Models

Arxiv

0+阅读 · 1月30日

The Law of Multi-Model Collaboration: Scaling Limits of Model Ensembling for Large Language Models

Arxiv

0+阅读 · 1月28日

Can Language Models Discover Scaling Laws?

Arxiv

0+阅读 · 1月22日

The Straight and Narrow: Do LLMs Possess an Internal Moral Path?

Arxiv

0+阅读 · 1月15日

Large Language Model-Based Automatic Formulation for Stochastic Optimization Models

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

最新内容

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

2+阅读 · 今天6:14

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

2+阅读 · 今天5:59

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

4+阅读 · 今天5:54

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

3+阅读 · 今天5:51

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

3+阅读 · 今天5:47

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

10+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

11+阅读 · 4月19日

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

专知会员服务

4+阅读 · 4月19日

《量化反无人机系统对抗无人机蜂群效能的创新方法》

《量化反无人机系统对抗无人机蜂群效能的创新方法》

专知会员服务

13+阅读 · 4月19日

澳大利亚发布《国防战略（2026年）》

澳大利亚发布《国防战略（2026年）》

专知会员服务

6+阅读 · 4月19日

【CMU博士论文】迈向基于基础先验的 4D 感知研究

【CMU博士论文】迈向基于基础先验的 4D 感知研究

专知会员服务

8+阅读 · 4月19日

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

18+阅读 · 4月19日

全球高超音速武器最新发展趋势

全球高超音速武器最新发展趋势

专知会员服务

5+阅读 · 4月19日

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

16+阅读 · 4月18日

相关VIP内容

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

实时无人机指令处理：一种面向无人机系统的大语言模型方法

实时无人机指令处理：一种面向无人机系统的大语言模型方法

专知会员服务

19+阅读 · 2025年10月24日

大模型如何判决？从生成到判决：大型语言模型作为裁判的机遇与挑战

大模型如何判决？从生成到判决：大型语言模型作为裁判的机遇与挑战

专知会员服务

33+阅读 · 2024年11月29日

大规模语言模型的人类偏好学习综述

大规模语言模型的人类偏好学习综述

专知会员服务

42+阅读 · 2024年6月19日

【博士论文】理解大型语言模型：使用探针分类器和自合理化实现严格和有针对性的可解释性，109页pdf

【博士论文】理解大型语言模型：使用探针分类器和自合理化实现严格和有针对性的可解释性，109页pdf

专知会员服务

40+阅读 · 2024年4月14日

大模型如何高效？OSU等最新《高效大型语言模型》综述，详述模型压缩、预训练、微调、提示等技术

大模型如何高效？OSU等最新《高效大型语言模型》综述，详述模型压缩、预训练、微调、提示等技术

专知会员服务

70+阅读 · 2023年12月10日

大模型道德价值观对齐问题剖析

大模型道德价值观对齐问题剖析

专知会员服务

79+阅读 · 2023年10月3日

大型语言模型公平性

大型语言模型公平性

专知会员服务

41+阅读 · 2023年8月31日

《实施机器伦理：使用机器学习培养有道德的机器》2022年180页博士论文，科克大学

《实施机器伦理：使用机器学习培养有道德的机器》2022年180页博士论文，科克大学

专知会员服务

22+阅读 · 2023年1月28日

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

专知会员服务

18+阅读 · 2019年12月14日

热门VIP内容

开通专知VIP会员享更多权益服务

军事通信系统与设备的技术演进综述

《北约标准：医疗评估手册》174页

乌克兰前线的五项创新

《北约 AI手册：作战人员的实用考量》（2026最新64页）

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Bending the Scaling Law Curve in Large-Scale Recommendation Systems

Arxiv

0+阅读 · 2月19日

Generalizing Scaling Laws for Dense and Sparse Large Language Models

Arxiv

0+阅读 · 2月9日

Probabilistic Aggregation and Targeted Embedding Optimization for Collective Moral Reasoning in Large Language Models

Arxiv

0+阅读 · 2月6日

MM-SCALE: Grounded Multimodal Moral Reasoning via Scalar Judgment and Listwise Alignment

Arxiv

0+阅读 · 2月3日

Building Interpretable Models for Moral Decision-Making

Arxiv

0+阅读 · 2月3日

Scaling Laws for Moral Machine Judgment in Large Language Models

Arxiv

0+阅读 · 1月30日

The Law of Multi-Model Collaboration: Scaling Limits of Model Ensembling for Large Language Models

Arxiv

0+阅读 · 1月28日

Can Language Models Discover Scaling Laws?

Arxiv

0+阅读 · 1月22日

The Straight and Narrow: Do LLMs Possess an Internal Moral Path?

Arxiv

0+阅读 · 1月15日

Large Language Model-Based Automatic Formulation for Stochastic Optimization Models

Arxiv

0+阅读 · 1月14日

相关基金

基于动态参数信道模型的OFDM系统时变信道估计

国家自然科学基金

0+阅读 · 2015年12月31日

人体行为识别的时空耦合随机图模型及其高效推理算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机路径选择模型的交通悖论特征研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

碰撞接触中的尺度缩放效应

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员