We introduce Robust Multi-Objective Decoding (RMOD), a novel inference-time algorithm that robustly aligns Large Language Models (LLMs) to multiple human objectives (e.g., instruction-following, helpfulness, safety) by maximizing the worst-case rewards. RMOD formulates the robust decoding problem as a maximin two-player game between adversarially computed reward weights and the sampling policy, solvable through a Nash equilibrium. We demonstrate that this game reduces to a convex optimization problem to identify the worst-case reward weights, with the optimal sampling policy analytically derived. For practical applications, we propose an efficient algorithm of RMOD tailored for contemporary LLMs, introducing minimal computational overhead compared to standard non-robust Controlled Decoding methods. Experimental results across a range of popular alignment datasets with up to 10 objectives show the effectiveness of RMOD and its distilled version, consistently outperforming baselines in worst-case rewards and win rates.


翻译:我们提出了鲁棒多目标解码(RMOD),一种新颖的推理时算法,通过最大化最坏情况奖励,将大型语言模型(LLMs)鲁棒地对齐到多个人类目标(例如,指令遵循、帮助性、安全性)。RMOD将鲁棒解码问题表述为对抗性计算的奖励权重与采样策略之间的极大极小二人博弈,可通过纳什均衡求解。我们证明该博弈可简化为一个凸优化问题以识别最坏情况奖励权重,并解析推导出最优采样策略。针对实际应用,我们提出了一种为当代LLMs定制的高效RMOD算法,与标准的非鲁棒受控解码方法相比,仅引入极小的计算开销。在多达10个目标的一系列流行对齐数据集上的实验结果表明,RMOD及其蒸馏版本均有效,在最坏情况奖励和胜率方面持续优于基线方法。

0
下载
关闭预览

相关内容

大语言模型智能体
专知会员服务
97+阅读 · 2024年12月25日
《多模态大语言模型评估综述》
专知会员服务
39+阅读 · 2024年8月29日
多模态大语言模型
专知会员服务
98+阅读 · 2024年6月25日
GPT系列大模型在自然语言处理任务中的鲁棒性研究
专知会员服务
30+阅读 · 2024年3月22日
《多模态大型语言模型》最新进展,详述26种现有MM-LLMs
专知会员服务
65+阅读 · 2024年1月25日
专知会员服务
26+阅读 · 2021年4月13日
基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】
人工智能前沿讲习班
27+阅读 · 2018年12月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
VIP会员
相关VIP内容
大语言模型智能体
专知会员服务
97+阅读 · 2024年12月25日
《多模态大语言模型评估综述》
专知会员服务
39+阅读 · 2024年8月29日
多模态大语言模型
专知会员服务
98+阅读 · 2024年6月25日
GPT系列大模型在自然语言处理任务中的鲁棒性研究
专知会员服务
30+阅读 · 2024年3月22日
《多模态大型语言模型》最新进展,详述26种现有MM-LLMs
专知会员服务
65+阅读 · 2024年1月25日
专知会员服务
26+阅读 · 2021年4月13日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员