Existing work on value alignment typically characterizes value relations statically, ignoring how interventions - such as prompting, fine-tuning, or preference optimization - reshape the broader value system. We introduce the Value Alignment Tax (VAT), a framework that measures how alignment-induced changes propagate across interconnected values relative to achieved on-target gain. VAT captures the dynamics of value expression under alignment pressure. Using a controlled scenario-action dataset grounded in Schwartz value theory, we collect paired pre-post normative judgments and analyze alignment effects across models, values, and alignment strategies. Our results show that alignment often produces uneven, structured co-movement among values. These effects are invisible under conventional target-only evaluation, revealing systemic, process-level alignment risks and offering new insights into the dynamics of value alignment in LLMs.


翻译:现有关于价值对齐的研究通常静态地描述价值关系,忽略了干预措施——如提示工程、微调或偏好优化——如何重塑更广泛的价值体系。我们提出了价值对齐税(VAT)这一框架,用于衡量对齐引发的改变如何在相互关联的价值之间传播,相对于实现的目标增益而言。VAT捕捉了在对齐压力下价值表达的动态变化。基于施瓦茨价值理论,我们使用一个受控的场景-行动数据集,收集了配对的前后规范性判断,并分析了不同模型、价值和策略下的对齐效应。我们的结果表明,对齐通常会在价值之间产生不均衡、结构化的协同变动。这些效应在传统的仅针对目标的评估中是不可见的,揭示了系统性的、过程层面的对齐风险,并为LLM中价值对齐的动态机制提供了新的见解。

0
下载
关闭预览

相关内容

大语言模型价值观对齐研究与展望
专知会员服务
37+阅读 · 2024年3月19日
《大模型对齐方法》最新综述
专知会员服务
85+阅读 · 2024年3月8日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
「实体对齐」最新2022综述
专知
13+阅读 · 2022年3月17日
【论文笔记】基于LSTM的问答对排序
专知
12+阅读 · 2019年9月7日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员