Reinforcement learning from human or AI feedback (RLHF/RLAIF) for speech-in/speech-out dialogue systems (SDS) remains underexplored, with prior work largely limited to single semantic rewards applied at the utterance level. Such setups overlook the multi-dimensional and multi-modal nature of conversational quality, which encompasses semantic coherence, audio naturalness, speaker consistency, emotion alignment, and turn-taking behavior. Moreover, they are fundamentally mismatched with duplex spoken dialogue systems that generate responses incrementally, where agents must make decisions based on partial utterances. We address these limitations with the first multi-reward RLAIF framework for SDS, combining semantic, audio-quality, and emotion-consistency rewards. To align utterance-level preferences with incremental, blockwise decoding in duplex models, we apply turn-level preference sampling and aggregate per-block log-probabilities within a single DPO objective. We present the first systematic study of preference learning for improving SDS quality in both multi-turn Chain-of-Thought and blockwise duplex models, and release a multi-reward DPO dataset to support reproducible research. Experiments show that single-reward RLAIF selectively improves its targeted metric, while joint multi-reward training yields consistent gains across semantic quality and audio naturalness. These results highlight the importance of holistic, multi-reward alignment for practical conversational SDS.


翻译:针对语音输入/语音输出对话系统(SDS)的人类或AI反馈强化学习(RLHF/RLAIF)研究仍显不足,先前工作主要局限于在话语层面应用单一语义奖励。此类设置忽视了会话质量的多维性与多模态特性,包括语义连贯性、音频自然度、说话人一致性、情感对齐及话轮转换行为。此外,这些方法与生成增量响应双工语音对话系统的运行机制存在根本性错配——此类系统需基于局部话语片段进行决策。我们通过首个面向SDS的多奖励RLAIF框架解决了这些局限,该框架融合了语义奖励、音频质量奖励与情感一致性奖励。为使话语级偏好与双工模型的增量分块解码机制对齐,我们采用话轮级偏好采样策略,并在单一DPO目标函数内聚合分块对数概率。本研究首次系统探讨了通过偏好学习提升SDS质量的方案,涵盖多轮思维链模型与分块双工模型,并发布了多奖励DPO数据集以支持可复现研究。实验表明:单奖励RLAIF能针对性提升其目标指标,而联合多奖励训练可在语义质量与音频自然度方面实现持续增益。这些结果凸显了面向实用会话型SDS进行整体性多奖励对齐的重要性。

0
下载
关闭预览

相关内容

大语言模型的强化学习技术综述
专知会员服务
40+阅读 · 2025年7月8日
【教程】通过人类反馈的强化学习,77页ppt
专知会员服务
38+阅读 · 2024年10月5日
基于人工反馈的强化学习综述
专知会员服务
65+阅读 · 2023年12月25日
「基于通信的多智能体强化学习」 进展综述
【论文笔记】基于强化学习的人机对话
专知
20+阅读 · 2019年9月21日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
一文读懂智能对话系统
数据派THU
16+阅读 · 2018年1月27日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员