Large language models show potential in task-oriented dialogue systems, yet existing training methods often rely on token-level likelihood or preference optimization, which poorly align with long-horizon task success. To address this, we propose Goal-Oriented Preference Optimization (GOPO), a hierarchical reinforcement learning framework that decouples strategy planning from response generation via an Expert Agent and a Customer Service Agent. The Expert Agent optimizes multi-turn goal preferences at the dialogue-trajectory level, while the Customer Service Agent generates responses strictly aligned with the selected strategy. We evaluate GOPO on public benchmarks and e-commerce customer service datasets, and introduce Task-focused Sequential Engagement (TSE), a sequence-level metric derived from real e-commerce interaction data. On the Mgshop dataset, GOPO improves TSE by 7.7% and 10.3% over PPO and Memento, with consistent gains in sequence-level reward and generation quality. Furthermore, a 14B model trained with GOPO achieves 2.7% and 1.5% higher TSE than Qwen-235B and GPT-5.2, respectively. Ablation studies confirm the Expert Agent's critical role in long-horizon optimization. GOPO demonstrates consistent improvements across other datasets as well. This work establishes a new paradigm for task-oriented dialogue systems in commercial scenarios, with code and datasets to be made public.


翻译:大型语言模型在面向任务的对话系统中展现出潜力,但现有训练方法通常依赖于词元级似然或偏好优化,难以与长时程任务成功对齐。为解决此问题,我们提出目标导向偏好优化(GOPO),这是一种通过专家智能体与客服智能体实现策略规划与响应生成解耦的分层强化学习框架。专家智能体在对话轨迹层级优化多轮目标偏好,而客服智能体则严格遵循选定策略生成响应。我们在公开基准和电商客服数据集上评估GOPO,并引入基于真实电商交互数据衍生的序列级指标——任务聚焦序列参与度(TSE)。在Mgshop数据集上,GOPO相较PPO和Memento分别将TSE提升7.7%和10.3%,同时在序列级奖励和生成质量上取得一致增益。此外,采用GOPO训练的14B模型分别比Qwen-235B和GPT-5.2获得2.7%和1.5%的TSE提升。消融研究证实了专家智能体在长时程优化中的关键作用。GOPO在其他数据集上也表现出稳定的改进。本研究为商业场景下面向任务的对话系统建立了新范式,相关代码与数据集将公开。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
《基于Transformer的智能体的战术决策解释》
专知会员服务
39+阅读 · 2025年12月28日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
大语言模型在规划与调度问题上的应用
专知会员服务
51+阅读 · 2025年1月12日
直接偏好优化中的数据集、理论、变体和应用的综合综述
专知会员服务
15+阅读 · 2024年10月24日
《多领域任务导向对话的数据驱动策略优化》145页
专知会员服务
14+阅读 · 2024年5月10日
基于多智能体强化学习的协同目标分配
专知会员服务
136+阅读 · 2023年9月5日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
18+阅读 · 2020年9月1日
基于RASA的task-orient对话系统解析(一)
AINLP
16+阅读 · 2019年8月27日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
干货|深度强化学习在面向任务的对话管理中的应用
全球人工智能
13+阅读 · 2017年9月14日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员