We present DyaPlex, a streaming, full-duplex speech-and-motion model designed for dyadic interaction. To capture the continuous and reciprocal nature of human communication, this full-duplex capability empowers the agent to simultaneously perceive and generate both speech and physical motion in a streaming fashion. At its core, our method leverages the strong priors of a foundational full-duplex speech model and integrates a novel motion pathway, thereby achieving fully synchronized multi-modal interaction. Specifically, we design a dual-tower Transformer architecture that preserves the zero-shot conversational reasoning of a frozen base speech model while constructing a deeply coupled, streaming motion pathway. By introducing a unified dyadic token interleaving mechanism and guiding cross-attention via a time-aligned speech-motion RoPE, our model effectively aligns autoregressive motions with rich latent speech features. Trained on the 4,000-hour Seamless Interaction dataset, our model effectively captures cross-speaker dependencies and establishes new state-of-the-art performance across both monadic and dyadic human interaction benchmarks.


翻译:我们提出了DyaPlex,一个面向对话交互的流式全双工语音与运动生成模型。为捕捉人类交流中连续且互惠的特性,该全双工能力使智能体能够以流式方式同时感知并生成语音与物理运动。其核心方法充分利用了基础全双工语音模型的强先验知识,并通过集成新型运动通路,实现了全同步的多模态交互。具体而言,我们设计了一种双塔Transformer架构,在保持冻结基础语音模型零样本对话推理能力的同时,构建了深度耦合的流式运动通路。通过引入统一的双人交互令牌交错机制,并借助时间对齐的语音-运动旋转位置编码(RoPE)引导交叉注意力,我们的模型有效实现了自回归运动与丰富潜在语音特征的对齐。该模型在4000小时的Seamless Interaction数据集上完成训练,有效捕捉了跨说话人依赖关系,并在单人与双人交互基准测试中均确立了新的最优性能。

0
下载
关闭预览

相关内容

面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
26+阅读 · 2025年10月22日
面向具身操作的视觉-语言-动作模型综述
专知会员服务
28+阅读 · 2025年8月23日
多循环嵌套的大语言模型多智能体指挥控制过程
专知会员服务
44+阅读 · 2025年1月19日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
NLP实践:对话系统技术原理和应用
AI100
34+阅读 · 2019年3月20日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员