Unit-Based Agent for Semi-Cascaded Full-Duplex Dialogue Systems - 专知论文

会员服务 ·

0

系统 · 单元 · 全双工 · 对话系统 · 级联 ·

Unit-Based Agent for Semi-Cascaded Full-Duplex Dialogue Systems

翻译：基于单元的半级联全双工对话系统代理

Haoyuan Yu,Yuxuan Chen,Minjie Cai

from arxiv, ICASSP 2026 (Grant Challenge). https://github.com/yu-haoyuan/fd-badcat

Full-duplex voice interaction is crucial for natural human computer interaction. We present a framework that decomposes complex dialogue into minimal conversational units, enabling the system to process each unit independently and predict when to transit to the next. This framework is instantiated as a semi-cascaded full-duplex dialogue system built around a multimodal large language model, supported by auxiliary modules such as voice activity detection (VAD) and text-to-speech (TTS) synthesis. The resulting system operates in a train-free, plug-and-play manner. Experiments on the HumDial dataset demonstrate the effectiveness of our framework, which ranks second among all teams on the test set of the Human-like Spoken Dialogue Systems Challenge (Track 2: Full-Duplex Interaction). Code is available at the GitHub repository https://github.com/yu-haoyuan/fd-badcat.

翻译：全双工语音交互对于自然的人机交互至关重要。我们提出了一种框架，将复杂对话分解为最小的对话单元，使系统能够独立处理每个单元并预测何时转换到下一个单元。该框架实例化为一个围绕多模态大语言模型构建的半级联全双工对话系统，并辅以语音活动检测（VAD）和文本转语音（TTS）合成等辅助模块。最终系统以无需训练、即插即用的方式运行。在HumDial数据集上的实验证明了我们框架的有效性，其在类人语音对话系统挑战赛（赛道2：全双工交互）测试集上的表现位列所有参赛团队第二。代码可在GitHub仓库 https://github.com/yu-haoyuan/fd-badcat 获取。

0

相关内容

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

专知会员服务

40+阅读 · 2023年9月27日

【南洋理工博士论文】从知识增强到多任务:面向类人对话系统，109页pdf

【南洋理工博士论文】从知识增强到多任务:面向类人对话系统，109页pdf

专知会员服务

29+阅读 · 2022年12月13日

多模态人机交互综述

多模态人机交互综述

专知会员服务

150+阅读 · 2022年7月3日

面向任务型的对话系统研究进展

面向任务型的对话系统研究进展

专知会员服务

59+阅读 · 2021年11月17日

上海交大最新《多轮对话理解》综述论文，20页pdf

上海交大最新《多轮对话理解》综述论文，20页pdf

专知会员服务

31+阅读 · 2021年10月12日

文本情感对话系统研究综述

专知会员服务

74+阅读 · 2021年5月21日

南洋理工75页最新「深度学习对话系统」大综述论文，最全面概述深度学习对话技术进展

南洋理工75页最新「深度学习对话系统」大综述论文，最全面概述深度学习对话技术进展

专知会员服务

49+阅读 · 2021年5月16日

达摩院基于元学习的对话系统

达摩院基于元学习的对话系统

专知会员服务

25+阅读 · 2021年1月1日

【清华大学】面向任务的对话系统的最新进展和挑战，Task-oriented Dialog System

【清华大学】面向任务的对话系统的最新进展和挑战，Task-oriented Dialog System

专知会员服务

84+阅读 · 2020年3月24日

[综述]基于深度学习的开放领域对话系统研究综述

[综述]基于深度学习的开放领域对话系统研究综述

专知会员服务

80+阅读 · 2019年10月12日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

对话系统近期进展

对话系统近期进展

专知

37+阅读 · 2019年3月23日

NLP实践：对话系统技术原理和应用

NLP实践：对话系统技术原理和应用

AI100

34+阅读 · 2019年3月20日

知识在检索式对话系统的应用

知识在检索式对话系统的应用

微信AI

32+阅读 · 2018年9月20日

干货篇|百度UNIT对话系统核心技术解析

干货篇|百度UNIT对话系统核心技术解析

InfoQ

23+阅读 · 2018年9月20日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

北邮张庆恒：如何基于 rasa 搭建一个中文对话系统（有源码视频）| 分享总结

北邮张庆恒：如何基于 rasa 搭建一个中文对话系统（有源码视频）| 分享总结

AI研习社

24+阅读 · 2018年1月31日

一文读懂智能对话系统

一文读懂智能对话系统

数据派THU

16+阅读 · 2018年1月27日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

基于 rasa 搭建中文对话系统 | 公开课

基于 rasa 搭建中文对话系统 | 公开课

AI研习社

16+阅读 · 2018年1月12日

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

高谱效全/半双工混合通信网络连续中继协议设计与性能分析

国家自然科学基金

0+阅读 · 2015年12月31日

面向全双工的新型MIMO系统传输优化

国家自然科学基金

0+阅读 · 2015年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

双微阵列语音增强与定位方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

Conversational Behavior Modeling Foundation Model With Multi-Level Perception

Arxiv

0+阅读 · 2月11日

MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models

Arxiv

0+阅读 · 2月8日

Equipping LLM with Directional Multi-Talker Speech Understanding Capabilities

Arxiv

0+阅读 · 2月6日

FLM-Audio: Natural Monologues Improves Native Full-Duplex Chatbots via Dual Training

Arxiv

0+阅读 · 1月30日

DoubleAgents: Interactive Simulations for Alignment in Agentic AI

Arxiv

0+阅读 · 1月28日

TurnGuide: Enhancing Meaningful Full Duplex Spoken Interactions via Dynamic Turn-Level Text-Speech Interleaving

Arxiv

0+阅读 · 1月20日

Agentic Conversational Search with Contextualized Reasoning via Reinforcement Learning

Arxiv

0+阅读 · 1月19日

ATOD: An Evaluation Framework and Benchmark for Agentic Task-Oriented Dialogue System

Arxiv

0+阅读 · 1月17日

F-Actor: Controllable Conversational Behaviour in Full-Duplex Models

Arxiv

0+阅读 · 1月16日

Survey of End-to-End Multi-Speaker Automatic Speech Recognition for Monaural Audio

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

最新内容

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

8+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

6+阅读 · 4月19日

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

专知会员服务

3+阅读 · 4月19日

《量化反无人机系统对抗无人机蜂群效能的创新方法》

《量化反无人机系统对抗无人机蜂群效能的创新方法》

专知会员服务

6+阅读 · 4月19日

澳大利亚发布《国防战略（2026年）》

澳大利亚发布《国防战略（2026年）》

专知会员服务

2+阅读 · 4月19日

【CMU博士论文】迈向基于基础先验的 4D 感知研究

【CMU博士论文】迈向基于基础先验的 4D 感知研究

专知会员服务

2+阅读 · 4月19日

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

3+阅读 · 4月19日

全球高超音速武器最新发展趋势

全球高超音速武器最新发展趋势

专知会员服务

2+阅读 · 4月19日

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

12+阅读 · 4月18日

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

专知会员服务

11+阅读 · 4月18日

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

专知会员服务

9+阅读 · 4月18日

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

专知会员服务

17+阅读 · 4月18日

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

专知会员服务

8+阅读 · 4月18日

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

专知会员服务

10+阅读 · 4月18日

相关VIP内容

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

专知会员服务

40+阅读 · 2023年9月27日

【南洋理工博士论文】从知识增强到多任务:面向类人对话系统，109页pdf

【南洋理工博士论文】从知识增强到多任务:面向类人对话系统，109页pdf

专知会员服务

29+阅读 · 2022年12月13日

多模态人机交互综述

多模态人机交互综述

专知会员服务

150+阅读 · 2022年7月3日

面向任务型的对话系统研究进展

面向任务型的对话系统研究进展

专知会员服务

59+阅读 · 2021年11月17日

上海交大最新《多轮对话理解》综述论文，20页pdf

上海交大最新《多轮对话理解》综述论文，20页pdf

专知会员服务

31+阅读 · 2021年10月12日

文本情感对话系统研究综述

专知会员服务

74+阅读 · 2021年5月21日

南洋理工75页最新「深度学习对话系统」大综述论文，最全面概述深度学习对话技术进展

南洋理工75页最新「深度学习对话系统」大综述论文，最全面概述深度学习对话技术进展

专知会员服务

49+阅读 · 2021年5月16日

达摩院基于元学习的对话系统

达摩院基于元学习的对话系统

专知会员服务

25+阅读 · 2021年1月1日

【清华大学】面向任务的对话系统的最新进展和挑战，Task-oriented Dialog System

【清华大学】面向任务的对话系统的最新进展和挑战，Task-oriented Dialog System

专知会员服务

84+阅读 · 2020年3月24日

[综述]基于深度学习的开放领域对话系统研究综述

[综述]基于深度学习的开放领域对话系统研究综述

专知会员服务

80+阅读 · 2019年10月12日

热门VIP内容

开通专知VIP会员享更多权益服务

《高超音速武器：一项再度兴起的技术》120页slides

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

美国当前高超音速导弹发展概述

无人机蜂群建模与仿真方法

相关资讯

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

对话系统近期进展

对话系统近期进展

专知

37+阅读 · 2019年3月23日

NLP实践：对话系统技术原理和应用

NLP实践：对话系统技术原理和应用

AI100

34+阅读 · 2019年3月20日

知识在检索式对话系统的应用

知识在检索式对话系统的应用

微信AI

32+阅读 · 2018年9月20日

干货篇|百度UNIT对话系统核心技术解析

干货篇|百度UNIT对话系统核心技术解析

InfoQ

23+阅读 · 2018年9月20日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

北邮张庆恒：如何基于 rasa 搭建一个中文对话系统（有源码视频）| 分享总结

北邮张庆恒：如何基于 rasa 搭建一个中文对话系统（有源码视频）| 分享总结

AI研习社

24+阅读 · 2018年1月31日

一文读懂智能对话系统

一文读懂智能对话系统

数据派THU

16+阅读 · 2018年1月27日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

基于 rasa 搭建中文对话系统 | 公开课

基于 rasa 搭建中文对话系统 | 公开课

AI研习社

16+阅读 · 2018年1月12日

相关论文

Conversational Behavior Modeling Foundation Model With Multi-Level Perception

Arxiv

0+阅读 · 2月11日

MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models

Arxiv

0+阅读 · 2月8日

Equipping LLM with Directional Multi-Talker Speech Understanding Capabilities

Arxiv

0+阅读 · 2月6日

FLM-Audio: Natural Monologues Improves Native Full-Duplex Chatbots via Dual Training

Arxiv

0+阅读 · 1月30日

DoubleAgents: Interactive Simulations for Alignment in Agentic AI

Arxiv

0+阅读 · 1月28日

TurnGuide: Enhancing Meaningful Full Duplex Spoken Interactions via Dynamic Turn-Level Text-Speech Interleaving

Arxiv

0+阅读 · 1月20日

Agentic Conversational Search with Contextualized Reasoning via Reinforcement Learning

Arxiv

0+阅读 · 1月19日

ATOD: An Evaluation Framework and Benchmark for Agentic Task-Oriented Dialogue System

Arxiv

0+阅读 · 1月17日

F-Actor: Controllable Conversational Behaviour in Full-Duplex Models

Arxiv

0+阅读 · 1月16日

Survey of End-to-End Multi-Speaker Automatic Speech Recognition for Monaural Audio

Arxiv

0+阅读 · 1月13日

相关基金

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

高谱效全/半双工混合通信网络连续中继协议设计与性能分析

国家自然科学基金

0+阅读 · 2015年12月31日

面向全双工的新型MIMO系统传输优化

国家自然科学基金

0+阅读 · 2015年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

双微阵列语音增强与定位方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员