Personalization and contextual coherence are two essential components in building effective persona-grounded dialogue systems. These aspects play a crucial role in enhancing user engagement and ensuring responses are more relevant and consistent with user identity. However, recent studies indicate that open-source large language models (LLMs) continue to struggle to generate responses that are both contextually grounded and aligned with persona cues, despite exhibiting strong general conversational abilities like fluency and naturalness. We present PersoDPO, a scalable preference optimisation framework that uses supervision signals from automatic evaluations of responses generated by both closed-source and open-source LLMs to fine-tune dialogue models. The framework integrates evaluation metrics targeting coherence and personalization, along with a length-format compliance feature to promote instruction adherence. These signals are combined to automatically construct high-quality preference pairs without manual annotation, enabling a scalable and reproducible training pipeline. Experiments on the FoCus dataset show that an open-source language model fine-tuned with the PersoDPO framework consistently outperforms strong open-source baselines and a standard Direct Preference Optimization (DPO) variant across multiple evaluation dimensions.


翻译:个性化和上下文连贯性是构建有效角色驱动对话系统的两个基本要素。这些方面对于提升用户参与度、确保回复与用户身份更相关且一致至关重要。然而,近期研究表明,尽管开源大语言模型展现出强大的通用对话能力(如流畅性和自然度),但在生成既符合上下文又契合角色提示的回复方面仍存在困难。本文提出PersoDPO,一个可扩展的偏好优化框架,该框架利用对闭源和开源大语言模型生成回复的自动评估所产生的监督信号来微调对话模型。该框架整合了针对连贯性和个性化的评估指标,以及一个长度-格式合规性特征以促进指令遵从。这些信号被结合用于自动构建高质量偏好对,无需人工标注,从而实现了一个可扩展且可复现的训练流程。在FoCus数据集上的实验表明,采用PersoDPO框架微调的开源语言模型在多个评估维度上持续优于强大的开源基线模型和一个标准的直接偏好优化变体。

0
下载
关闭预览

相关内容

多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
《多领域任务导向对话的数据驱动策略优化》145页
专知会员服务
14+阅读 · 2024年5月10日
MIMIC-IT:多模态上下文指令调优
专知会员服务
39+阅读 · 2023年6月11日
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
对话系统近期进展
专知
37+阅读 · 2019年3月23日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
多轮对话之对话管理:Dialog Management
PaperWeekly
18+阅读 · 2018年1月15日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关资讯
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
对话系统近期进展
专知
37+阅读 · 2019年3月23日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
多轮对话之对话管理:Dialog Management
PaperWeekly
18+阅读 · 2018年1月15日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员