Aligning large language models with multiple human expectations and values is crucial for ensuring that they adequately serve a variety of user needs. To this end, offline multiobjective alignment algorithms such as the Rewards-in-Context algorithm have shown strong performance and efficiency. However, inappropriate preference representations and training with imbalanced reward scores limit the performance of such algorithms. In this work, we introduce ParetoHqD that addresses the above issues by representing human preferences as preference directions in the objective space and regarding data near the Pareto front as "high-quality" data. For each preference, ParetoHqD follows a two-stage supervised fine-tuning process, where each stage uses an individual Pareto high-quality training set that best matches its preference direction. The experimental results have demonstrated the superiority of ParetoHqD over five baselines on two multiobjective alignment tasks.


翻译:使大语言模型与多元人类期望及价值观对齐,对于确保其充分满足多样化用户需求至关重要。为此,离线多目标对齐算法(如上下文奖励算法)已展现出优异的性能与效率。然而,不恰当的偏好表征以及使用不平衡奖励分数进行训练,限制了此类算法的性能。本研究提出ParetoHqD方法,通过将人类偏好表征为目标空间中的偏好方向,并将帕累托前沿附近的数据视为“高质量”数据,以解决上述问题。针对每一偏好方向,ParetoHqD采用两阶段监督微调流程,其中每个阶段均使用与其偏好方向最匹配的独立帕累托高质量训练集。实验结果表明,在两项多目标对齐任务上,ParetoHqD均优于五种基线方法。

0
下载
关闭预览

相关内容

大语言模型对齐研究综述
专知会员服务
56+阅读 · 2024年8月1日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
一文速览大语言模型提示最新进展
专知会员服务
80+阅读 · 2023年12月24日
大型语言模型对齐
专知会员服务
120+阅读 · 2023年9月27日
重构 Palantir 数据模型
待字闺中
28+阅读 · 2018年12月27日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
《自动化战略情报管控》
专知会员服务
0+阅读 · 52分钟前
得失评估:审视对伊朗战争的轨迹(简报)
专知会员服务
0+阅读 · 今天14:19
【CMU博士论文】迈向可解释机器学习的理论基础
专知会员服务
0+阅读 · 今天12:23
基于数据优化的人机协同与机器人僚机
专知会员服务
4+阅读 · 今天2:08
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员