During conversational interactions, humans subconsciously engage in concurrent thinking while listening to a speaker. Although this internal cognitive processing may not always manifest as explicit linguistic structures, it is instrumental in formulating high-quality responses. Inspired by this cognitive phenomenon, we propose a novel Full-duplex LAtent and Internal Reasoning method named FLAIR that conducts latent thinking simultaneously with speech perception. Unlike conventional "thinking" mechanisms in NLP, which require post-hoc generation, our approach aligns seamlessly with spoken dialogue systems: during the user's speaking phase, it recursively feeds the latent embedding output from the previous step into the next step, enabling continuous reasoning that strictly adheres to causality without introducing additional latency. To enable this latent reasoning, we design an Evidence Lower Bound-based objective that supports efficient supervised finetuning via teacher forcing, circumventing the need for explicit reasoning annotations. Experiments demonstrate the effectiveness of this think-while-listening design, which achieves competitive results on a range of speech benchmarks. Furthermore, FLAIR robustly handles conversational dynamics and attains competitive performance on full-duplex interaction metrics.


翻译:在对话交互过程中,人类在聆听说话者时会潜意识地进行并行思考。尽管这种内部认知加工并非总是显性语言结构,但它对于生成高质量回应至关重要。受此认知现象启发,我们提出了一种名为FLAIR的全双工潜在内部推理方法,该方法在感知语音的同时进行潜在思考。与自然语言处理中需要事后生成的常规"思考"机制不同,我们的方法能自然适配口语对话系统:在用户发言阶段,该方法递归地将上一步的潜在嵌入输出作为下一步输入,实现严格遵循因果关系的连续推理,且不引入额外延迟。为实现这种潜在推理,我们设计了基于证据下界(Evidence Lower Bound)的目标函数,通过教师强制(teacher forcing)支持高效监督微调,无需显式推理标注。实验证明了这种"边听边思"设计的有效性,在一系列语音基准测试中取得了具有竞争力的结果。此外,FLAIR能稳健处理对话动态变化,在全双工交互指标上达到竞争性表现。

0
下载
关闭预览

相关内容

从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
25+阅读 · 2025年11月19日
大型语言模型推理增强外部知识:综述
专知会员服务
38+阅读 · 2025年6月2日
《大型语言模型情感认知》最新进展
专知会员服务
43+阅读 · 2024年10月3日
【大模型对齐】利用对齐使大型语言模型更好地推理
专知会员服务
48+阅读 · 2023年9月8日
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
NLP 与 NLU:从语言理解到语言处理
AI研习社
15+阅读 · 2019年5月29日
书单 | 语音研究进阶指南
微软研究院AI头条
12+阅读 · 2019年3月22日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员