Speech carries more information than just words: a child's voice, a fearful tone, or a noisy background should all lead a sufficiently competent spoken-dialogue assistant to different replies. Current Speech Language Models (SLMs) can recognize such paralinguistic cues but often ignore them in open-ended dialogue. We observe that a simple paralinguistic instruction scaffold at the inference stage narrows this perception-behavior gap, suggesting that the relevant cues are already latent in the model. Such scaffolds, however, remain brittle under multi-turn context and competing instructions. Therefore, we propose \textbf{ParaBridge}, an on-policy self-distillation method that turns a brittle inference-time scaffold into stable model behavior. During training, the scaffold serves only as a temporary privileged view; the scaffold-free model rolls out its own response, while the scaffolded view supplies dense, full-vocabulary next-token targets along its trajectory. This supervision teaches when non-lexical cues should affect the reply without the need for curated dialogues, human labels, or external reward models. On Qwen3-Omni-thinking, ParaBridge raises scaffold-free VoxSafeBench SAR from $14.6\%$ to $40.3\%$ and improves EchoMind average rating from $3.27$ to $3.92$. It also preserves general ability, with MMAU-Pro, VoiceBench, and GPQA all within $0.4$ points of the original model. Beyond the training distribution, ParaBridge generalizes to unseen paralinguistic cues, transfers from safety-oriented training to empathy-oriented dialogue, and works on a different SLM backbone.


翻译:语音所承载的信息远超词汇本身:儿童的声音、恐惧的语气或嘈杂的背景,都应当引导一个足够出色的语音对话助手给出不同的回应。当前的语音语言模型(SLM)能够识别此类副语言线索,但在开放式对话中常常忽略它们。我们观察到,在推理阶段使用简单的副语言指令脚手架能缩小这种感知-行为差距,表明相关线索已隐含于模型中。然而,此类脚手架在多轮上下文和竞争性指令下仍然脆弱。因此,我们提出 **ParaBridge**,一种在线策略自蒸馏方法,将脆弱的推理时脚手架转化为稳定的模型行为。在训练过程中,脚手架仅作为临时特权视角;无脚手架模型自主生成回应,而带脚手架视角沿其轨迹提供密集的、全词汇的下一词目标。这种监督机制教会模型何时非词汇线索应影响回复,而无需精心设计的对话、人工标注或外部奖励模型。在 Qwen3-Omni-thinking 上,ParaBridge 将无脚手架 VoxSafeBench SAR 从 14.6% 提升至 40.3%,并将 EchoMind 平均评分从 3.27 提升至 3.92。同时,它保持了通用能力,MMAU-Pro、VoiceBench 和 GPQA 均在原模型 0.4 分以内。在训练分布之外,ParaBridge 可泛化至未见过的副语言线索,从安全导向训练迁移至共情导向对话,并在不同的 SLM 骨干网络上有效工作。

0
下载
关闭预览

相关内容

大语言模型与小语言模型协同机制综述
专知会员服务
40+阅读 · 2025年5月15日
《口语语言模型研究现状:一项全面综述》
专知会员服务
16+阅读 · 2025年4月14日
小型语言模型综述
专知会员服务
56+阅读 · 2024年10月29日
《语音大语言模型》最新进展综述
专知会员服务
58+阅读 · 2024年10月8日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
书单 | 语音研究进阶指南
微软研究院AI头条
12+阅读 · 2019年3月22日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员