Aligning large language models (LLMs) with human preferences is inherently multi-objective: different users and evaluation criteria impose heterogeneous and often conflicting requirements on model outputs. We propose CAGE (Common-Agency Games for Alignment), a training-free, game-theoretic framework for multi-objective test-time alignment. CAGE models alignment objectives as strategic principals that allocate token-level incentives to a shared LLM, inducing an equilibrium policy that captures the joint effect of competing objectives. We develop an efficient algorithm based on equilibrium problems with equilibrium constraints (EPEC) to compute this equilibrium, and establish theoretical guarantees including existence and uniqueness of the equilibrium policy, convergence and stability of the algorithm, and no-regret learning dynamics. Empirically, CAGE enables flexible and fine-grained trade-offs across objectives at inference time, consistently outperforming existing test-time alignment methods while requiring no retraining. It further supports weak-to-strong generalization, making multi-objective alignment practical in resource-constrained settings.


翻译:对齐大语言模型(LLM)与人类偏好本质上是多目标的:不同用户和评估准则对模型输出施加了异质且经常相互冲突的需求。我们提出CAGE(面向对齐的共同代理博弈),一种免训练、基于博弈论的多目标测试时对齐框架。CAGE将对齐目标建模为战略性代理,向共享的LLM分配词元级别的激励,从而诱导出一个捕获竞争目标联合效应的均衡策略。我们开发了一种基于含均衡约束的均衡问题(EPEC)的高效算法来计算此均衡,并建立了理论保证,包括均衡策略的存在性与唯一性、算法的收敛性与稳定性,以及无遗憾学习动态。实验结果表明,CAGE能够在推理时实现目标之间灵活且细粒度的权衡,持续优于现有测试时对齐方法,且无需重新训练。它还支持弱到强泛化,使得多目标对齐在资源受限场景下变得实用。

0
下载
关闭预览

相关内容

博弈论与大语言模型的结合:系统性综述
专知会员服务
60+阅读 · 2025年2月14日
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
【ACL2024】语言模型对齐的不确定性感知学习
专知会员服务
25+阅读 · 2024年6月10日
KG-Agent:面向KG复杂推理的高效自治代理框架
专知会员服务
35+阅读 · 2024年6月1日
大型语言模型对齐
专知会员服务
120+阅读 · 2023年9月27日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
CALDERA 一款对手自动模拟工具
黑白之道
20+阅读 · 2019年9月17日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
不对称多代理博弈中的博弈理论解读
AI前线
14+阅读 · 2018年3月8日
多轮对话之对话管理:Dialog Management
PaperWeekly
18+阅读 · 2018年1月15日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月7日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 今天14:45
定向能反无人机系统最新发展动态
专知会员服务
5+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 今天13:33
相关VIP内容
博弈论与大语言模型的结合:系统性综述
专知会员服务
60+阅读 · 2025年2月14日
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
【ACL2024】语言模型对齐的不确定性感知学习
专知会员服务
25+阅读 · 2024年6月10日
KG-Agent:面向KG复杂推理的高效自治代理框架
专知会员服务
35+阅读 · 2024年6月1日
大型语言模型对齐
专知会员服务
120+阅读 · 2023年9月27日
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员