We study a persistent failure mode in multi-objective alignment for large language models (LLMs): training improves performance on only a subset of objectives while causing others to degrade. We formalize this phenomenon as cross-objective interference and conduct the first systematic study across scalarization algorithms, showing that interference is pervasive and exhibits strong model dependence. To explain this phenomenon, we derive a local covariance law showing that an objective improves when its reward exhibits positive covariance with the scalarized score. We extend this analysis to clipped surrogate objectives used in modern alignment, demonstrating that the covariance law remains valid under mild conditions despite clipping. Building on this analysis, we propose Covariance Targeted Weight Adaptation (CTWA), a plug-and-play method that maintains positive covariance between objective rewards and the training signal to effectively mitigate cross-objective interference. Finally, we complement these local improvement conditions with a global convergence analysis under the Polyak--Łojasiewicz condition, establishing when non-convex scalarized optimization achieves global convergence and how cross-objective interference depends on specific model geometric properties.


翻译:我们研究了大型语言模型多目标对齐中存在的一种持续性失效模式:训练仅提升部分目标的性能,却导致其他目标退化。我们将这一现象形式化为"跨目标干扰",并首次系统地研究了其在标量化算法中的表现,发现干扰具有普遍性且表现出显著的模型依赖性。为解释该现象,我们推导出局部协方差定律:当一个目标的奖励与标量化评分呈正协方差时,该目标的性能会提升。我们将此分析扩展至现代对齐中使用的裁剪替代目标,证明尽管存在裁剪操作,协方差定律在温和条件下依然成立。基于此分析,我们提出了协方差目标权重自适应(CTWA)方法——一种即插即用方案,通过维持目标奖励与训练信号间的正协方差来有效缓解跨目标干扰。最后,我们在Polyak--Łojasiewicz条件下补充了全局收敛性分析,阐明了非凸标量化优化实现全局收敛的条件,以及跨目标干扰如何依赖于特定的模型几何特性。

0
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
用于多模态对齐的基础模型表征潜力:一项综述
专知会员服务
18+阅读 · 2025年10月8日
《多模态对齐与融合》综述
专知会员服务
99+阅读 · 2024年11月27日
【CVPR2023】多模态表示学习中潜在模态结构的理解和构建
视觉语言多模态预训练综述
专知会员服务
122+阅读 · 2022年7月11日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
最新《多任务学习》综述,39页pdf
专知
28+阅读 · 2020年7月10日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
视频中的多目标跟踪【附PPT与视频资料】
人工智能前沿讲习班
30+阅读 · 2018年11月29日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 今天14:45
定向能反无人机系统最新发展动态
专知会员服务
5+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 今天13:33
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员