Preference tuning aligns pretrained language models to human judgments of quality, helpfulness, or safety by optimizing over explicit preference signals rather than likelihood alone. Prior work has shown that preference-tuning degrades performance and reduces helpfulness when evaluated outside the training domain. However, the extent to which adaptation strategies mitigate this domain shift remains unexplored. We address this challenge by conducting a comprehensive and systematic study of alignment generalization under domain shift. We compare five popular alignment objectives and various adaptation strategies from source to target, including target-domain supervised fine-tuning and pseudo-labeling, across summarization and question-answering helpfulness tasks. Our findings reveal systematic differences in generalization across alignment objectives under domain shift. We show that adaptation strategies based on pseudo-labeling can substantially reduce domain-shift degradation


翻译:偏好调优通过优化显式的偏好信号(而非仅依赖似然性),使预训练语言模型与人类在质量、帮助性或安全性方面的判断保持一致。先前研究表明,当在训练领域之外进行评估时,偏好调优会降低模型性能并削弱其帮助性。然而,适应策略能在多大程度上缓解这种领域迁移的影响仍未得到充分探索。为应对这一挑战,我们开展了领域迁移下对齐泛化性的全面系统研究。我们在摘要生成和问答帮助性任务中,比较了五种主流对齐目标及多种从源领域到目标领域的适应策略(包括目标领域监督微调与伪标注方法)。研究结果表明,不同对齐目标在领域迁移下的泛化能力存在系统性差异。我们证明,基于伪标注的适应策略能显著减轻领域迁移导致的性能退化。

0
下载
关闭预览

相关内容

《直接偏好优化研究综述》
专知会员服务
31+阅读 · 2025年3月18日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
直接偏好优化中的数据集、理论、变体和应用的综合综述
专知会员服务
15+阅读 · 2024年10月24日
【资源】领域自适应相关论文、代码分享
专知
32+阅读 · 2019年10月12日
迁移自适应学习最新综述,附21页论文下载
领域自适应学习论文大列表
专知
71+阅读 · 2019年3月2日
迁移学习之Domain Adaptation
全球人工智能
18+阅读 · 2018年4月11日
迁移学习在深度学习中的应用
专知
24+阅读 · 2017年12月24日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
人工智能赋能无人机:俄乌战争(万字长文)
专知会员服务
4+阅读 · 今天6:56
国外海军作战管理系统与作战训练系统
专知会员服务
2+阅读 · 今天4:16
美军条令《海军陆战队规划流程(2026版)》
专知会员服务
9+阅读 · 今天3:36
《压缩式分布式交互仿真标准》120页
专知会员服务
4+阅读 · 今天3:21
《电子战数据交换模型研究报告》
专知会员服务
6+阅读 · 今天3:13
《基于Transformer的异常舰船导航识别与跟踪》80页
《低数据领域军事目标检测模型研究》
专知会员服务
6+阅读 · 今天2:37
【CMU博士论文】物理世界的视觉感知与深度理解
专知会员服务
10+阅读 · 4月22日
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
8+阅读 · 4月22日
电子战革命:塑造战场的十年突破(2015–2025)
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员