Deep Value Benchmark: Measuring Whether Models Generalize Deep Values or Shallow Preferences - 专知论文

会员服务 ·

0

泛化 · 基准 · 对齐 · 模型泛化 · 系统 ·

Deep Value Benchmark: Measuring Whether Models Generalize Deep Values or Shallow Preferences

翻译：深度价值基准：衡量模型泛化深层价值还是浅层偏好

Joshua Ashkinaze,Hua Shen,Saipranav Avula,Eric Gilbert,Ceren Budak

from arxiv, NeurIPS 2025 (Spotlight)

We introduce the Deep Value Benchmark (DVB), an evaluation framework that directly tests whether large language models (LLMs) learn fundamental human values or merely surface-level preferences. This distinction is critical for AI alignment: Systems that capture deeper values are likely to generalize human intentions robustly, while those that capture only superficial patterns in preference data risk producing misaligned behavior. The DVB uses a novel experimental design with controlled confounding between deep values (e.g., moral principles) and shallow features (e.g., superficial attributes). In the training phase, we expose LLMs to human preference data with deliberately correlated deep and shallow features -- for instance, where a user consistently prefers (non-maleficence, formal language) options over (justice, informal language) alternatives. The testing phase then breaks these correlations, presenting choices between (justice, formal language) and (non-maleficence, informal language) options. This design allows us to precisely measure a model's Deep Value Generalization Rate (DVGR) -- the probability of generalizing based on the underlying value rather than the shallow feature. Across 9 different models, the average DVGR is just 0.30. All models generalize deep values less than chance. Larger models have a (slightly) lower DVGR than smaller models. We are releasing our dataset, which was subject to three separate human validation experiments. DVB provides an interpretable measure of a core feature of alignment.

翻译：本文提出深度价值基准（DVB），这是一个直接测试大型语言模型（LLM）是否习得根本人类价值或仅掌握表层偏好的评估框架。该区分对AI对齐至关重要：捕捉深层价值的系统有望稳健地泛化人类意图，而仅捕捉偏好数据中表层模式的系统则可能产生未对齐行为。DVB采用新颖的实验设计，在深层价值（如道德原则）与浅层特征（如表面属性）之间建立受控混杂关联。在训练阶段，我们将LLM暴露于深层与浅层特征刻意相关的人类偏好数据——例如用户始终选择（非伤害原则，正式语言）选项而非（正义原则，非正式语言）替代项。测试阶段则打破这些关联，呈现（正义原则，正式语言）与（非伤害原则，非正式语言）选项之间的选择。该设计使我们能精确测量模型的深度价值泛化率（DVGR）——即基于底层价值而非浅层特征进行泛化的概率。在9个不同模型中，平均DVGR仅为0.30。所有模型的深层价值泛化能力均低于随机水平。较大模型的DVGR略低于较小模型。我们发布了经过三项独立人工验证实验的数据集。DVB为核心对齐特征提供了可解释的度量标准。

0

相关内容

Deep Research（深度研究）：系统性综述

Deep Research（深度研究）：系统性综述

专知会员服务

50+阅读 · 2025年12月3日

迈向深度基础模型：基于视觉的深度估计最新趋势

迈向深度基础模型：基于视觉的深度估计最新趋势

专知会员服务

23+阅读 · 2025年7月16日

《直接偏好优化研究综述》

《直接偏好优化研究综述》

专知会员服务

31+阅读 · 2025年3月18日

DeepSeek与其他大型语言模型的比较

DeepSeek与其他大型语言模型的比较

专知会员服务

85+阅读 · 2025年2月9日

【AAAI2025】偏好导向的监督微调：优先选择目标模型而非对齐的大语言模型

【AAAI2025】偏好导向的监督微调：优先选择目标模型而非对齐的大语言模型

专知会员服务

23+阅读 · 2024年12月18日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

50+阅读 · 2024年6月30日

通用人工智能6个层次！谷歌DeepMind提出《AGI的层次:在通往AGI的道路上的操作化进展》

通用人工智能6个层次！谷歌DeepMind提出《AGI的层次:在通往AGI的道路上的操作化进展》

专知会员服务

67+阅读 · 2023年11月9日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

专知会员服务

38+阅读 · 2020年1月13日

深度神经网络模型的个体差异，Individual differences among deep neural network models

深度神经网络模型的个体差异，Individual differences among deep neural network models

专知会员服务

10+阅读 · 2020年1月11日

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

专知

18+阅读 · 2022年9月9日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

高赞人气资源！集结数百篇顶会论文，由浅入深让你吃透图深度学习

高赞人气资源！集结数百篇顶会论文，由浅入深让你吃透图深度学习

量子位

10+阅读 · 2019年7月7日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

博客 | 度量学习总结(三) | Deep Metric Learning for Sequential Data

博客 | 度量学习总结(三) | Deep Metric Learning for Sequential Data

AI研习社

27+阅读 · 2019年4月13日

每日论文 | CV中深度学习涉及到的几何和不确定性；用深度学习分析气象；可自动调整模拟器参数的模型

每日论文 | CV中深度学习涉及到的几何和不确定性；用深度学习分析气象；可自动调整模拟器参数的模型

论智

11+阅读 · 2018年10月9日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

基于图片内容的深度学习图片检索（一）

基于图片内容的深度学习图片检索（一）

七月在线实验室

20+阅读 · 2017年10月1日

大数据环境下弱监督深度学习的人脸美丽预测研究

国家自然科学基金

3+阅读 · 2017年12月31日

群体偏好的敏感性度量方法研究和群决策方法的可实施性评价

国家自然科学基金

0+阅读 · 2017年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

基于深层特征学习的RGB-D人体行为识别方法

国家自然科学基金

4+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

基于深度学习的四元数小波彩色图像质量评价及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

VALUEFLOW: Toward Pluralistic and Steerable Value-based Alignment in Large Language Models

Arxiv

0+阅读 · 2月3日

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Arxiv

0+阅读 · 2月2日

Dual Mechanisms of Value Expression: Intrinsic vs. Prompted Values in Large Language Models

Arxiv

0+阅读 · 1月30日

Look-Ahead-Bench: a Standardized Benchmark of Look-ahead Bias in Point-in-Time LLMs for Finance

Arxiv

0+阅读 · 1月20日

CommunityBench: Benchmarking Community-Level Alignment across Diverse Groups and Tasks

Arxiv

0+阅读 · 1月20日

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

Arxiv

0+阅读 · 1月16日

JudgeAgent: Beyond Static Benchmarks for Knowledge-Driven and Dynamic LLM Evaluation

Arxiv

0+阅读 · 1月15日

IDRBench: Interactive Deep Research Benchmark

Arxiv

0+阅读 · 1月10日

Benchmark^2: Systematic Evaluation of LLM Benchmarks

Arxiv

0+阅读 · 1月7日

ELAIPBench: A Benchmark for Expert-Level Artificial Intelligence Paper Understanding

Arxiv

0+阅读 · 1月7日

VIP会员

文章信息

相关主题

最新内容

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

8+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

7+阅读 · 4月19日

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

专知会员服务

3+阅读 · 4月19日

《量化反无人机系统对抗无人机蜂群效能的创新方法》

《量化反无人机系统对抗无人机蜂群效能的创新方法》

专知会员服务

9+阅读 · 4月19日

澳大利亚发布《国防战略（2026年）》

澳大利亚发布《国防战略（2026年）》

专知会员服务

2+阅读 · 4月19日

【CMU博士论文】迈向基于基础先验的 4D 感知研究

【CMU博士论文】迈向基于基础先验的 4D 感知研究

专知会员服务

2+阅读 · 4月19日

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

8+阅读 · 4月19日

全球高超音速武器最新发展趋势

全球高超音速武器最新发展趋势

专知会员服务

2+阅读 · 4月19日

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

12+阅读 · 4月18日

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

专知会员服务

12+阅读 · 4月18日

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

专知会员服务

9+阅读 · 4月18日

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

专知会员服务

17+阅读 · 4月18日

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

专知会员服务

8+阅读 · 4月18日

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

专知会员服务

10+阅读 · 4月18日

相关VIP内容

Deep Research（深度研究）：系统性综述

Deep Research（深度研究）：系统性综述

专知会员服务

50+阅读 · 2025年12月3日

迈向深度基础模型：基于视觉的深度估计最新趋势

迈向深度基础模型：基于视觉的深度估计最新趋势

专知会员服务

23+阅读 · 2025年7月16日

《直接偏好优化研究综述》

《直接偏好优化研究综述》

专知会员服务

31+阅读 · 2025年3月18日

DeepSeek与其他大型语言模型的比较

DeepSeek与其他大型语言模型的比较

专知会员服务

85+阅读 · 2025年2月9日

【AAAI2025】偏好导向的监督微调：优先选择目标模型而非对齐的大语言模型

【AAAI2025】偏好导向的监督微调：优先选择目标模型而非对齐的大语言模型

专知会员服务

23+阅读 · 2024年12月18日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

50+阅读 · 2024年6月30日

通用人工智能6个层次！谷歌DeepMind提出《AGI的层次:在通往AGI的道路上的操作化进展》

通用人工智能6个层次！谷歌DeepMind提出《AGI的层次:在通往AGI的道路上的操作化进展》

专知会员服务

67+阅读 · 2023年11月9日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

专知会员服务

38+阅读 · 2020年1月13日

深度神经网络模型的个体差异，Individual differences among deep neural network models

深度神经网络模型的个体差异，Individual differences among deep neural network models

专知会员服务

10+阅读 · 2020年1月11日

热门VIP内容

开通专知VIP会员享更多权益服务

《高超音速武器：一项再度兴起的技术》120页slides

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

美国当前高超音速导弹发展概述

无人机蜂群建模与仿真方法

相关资讯

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

专知

18+阅读 · 2022年9月9日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

高赞人气资源！集结数百篇顶会论文，由浅入深让你吃透图深度学习

高赞人气资源！集结数百篇顶会论文，由浅入深让你吃透图深度学习

量子位

10+阅读 · 2019年7月7日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

博客 | 度量学习总结(三) | Deep Metric Learning for Sequential Data

博客 | 度量学习总结(三) | Deep Metric Learning for Sequential Data

AI研习社

27+阅读 · 2019年4月13日

每日论文 | CV中深度学习涉及到的几何和不确定性；用深度学习分析气象；可自动调整模拟器参数的模型

每日论文 | CV中深度学习涉及到的几何和不确定性；用深度学习分析气象；可自动调整模拟器参数的模型

论智

11+阅读 · 2018年10月9日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

基于图片内容的深度学习图片检索（一）

基于图片内容的深度学习图片检索（一）

七月在线实验室

20+阅读 · 2017年10月1日

相关论文

VALUEFLOW: Toward Pluralistic and Steerable Value-based Alignment in Large Language Models

Arxiv

0+阅读 · 2月3日

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Arxiv

0+阅读 · 2月2日

Dual Mechanisms of Value Expression: Intrinsic vs. Prompted Values in Large Language Models

Arxiv

0+阅读 · 1月30日

Look-Ahead-Bench: a Standardized Benchmark of Look-ahead Bias in Point-in-Time LLMs for Finance

Arxiv

0+阅读 · 1月20日

CommunityBench: Benchmarking Community-Level Alignment across Diverse Groups and Tasks

Arxiv

0+阅读 · 1月20日

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

Arxiv

0+阅读 · 1月16日

JudgeAgent: Beyond Static Benchmarks for Knowledge-Driven and Dynamic LLM Evaluation

Arxiv

0+阅读 · 1月15日

IDRBench: Interactive Deep Research Benchmark

Arxiv

0+阅读 · 1月10日

Benchmark^2: Systematic Evaluation of LLM Benchmarks

Arxiv

0+阅读 · 1月7日

ELAIPBench: A Benchmark for Expert-Level Artificial Intelligence Paper Understanding

Arxiv

0+阅读 · 1月7日

相关基金

大数据环境下弱监督深度学习的人脸美丽预测研究

国家自然科学基金

3+阅读 · 2017年12月31日

群体偏好的敏感性度量方法研究和群决策方法的可实施性评价

国家自然科学基金

0+阅读 · 2017年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

基于深层特征学习的RGB-D人体行为识别方法

国家自然科学基金

4+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

基于深度学习的四元数小波彩色图像质量评价及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员