Game-Time: Evaluating Temporal Dynamics in Spoken Language Models - 专知论文

会员服务 ·

0

口语语言模型 · 语言模型 · 交互 · 基准 · 系统 ·

Game-Time: Evaluating Temporal Dynamics in Spoken Language Models

翻译：游戏时间：评估口语语言模型中的时间动态

Kai-Wei Chang,En-Pei Hu,Chun-Yi Kuan,Wenze Ren,Wei-Chih Chen,Guan-Ting Lin,Yu Tsao,Shao-Hua Sun,Hung-yi Lee,James Glass

from arxiv, Accepted to ICASSP 2026

Conversational Spoken Language Models (SLMs) are emerging as a promising paradigm for real-time speech interaction. However, their capacity of temporal dynamics, including the ability to manage timing, tempo and simultaneous speaking, remains a critical and unevaluated challenge for conversational fluency. To address this gap, we introduce the Game-Time Benchmark, a framework to systematically assess these temporal capabilities. Inspired by how humans learn a language through language activities, Game-Time consists of basic instruction-following tasks and advanced tasks with temporal constraints, such as tempo adherence and synchronized responses. Our evaluation of diverse SLM architectures reveals a clear performance disparity: while state-of-the-art models handle basic tasks well, many contemporary systems still struggle with fundamental instruction-following. More critically, nearly all models degrade substantially under temporal constraints, exposing persistent weaknesses in time awareness and full-duplex interaction. The Game-Time Benchmark provides a foundation for guiding future research toward more temporally-aware conversational AI. Demos and datasets are available on our project website https://ga642381.github.io/Game-Time.

翻译：对话式口语语言模型（SLM）正成为实时语音交互的一种有前途的范式。然而，它们在时间动态方面的能力，包括管理时间、节奏和同时说话的能力，对于对话流畅性而言仍是一个关键且未被评估的挑战。为填补这一空白，我们引入了游戏时间基准（Game-Time Benchmark），一个用于系统评估这些时间能力的框架。受人类通过语言活动学习语言的启发，游戏时间包括基本的指令遵循任务和带有时间约束的进阶任务，如节奏遵循和同步响应。我们对多种SLM架构的评估揭示了明显的性能差异：虽然最先进的模型能很好处理基本任务，但许多当代系统仍在基本指令遵循上存在困难。更关键的是，几乎所有模型在时间约束下性能显著下降，暴露出时间感知和全双工交互方面的持续弱点。游戏时间基准为引导未来研究朝向更具时间感知能力的对话式AI奠定了基础。演示和数据集可在我们的项目网站https://ga642381.github.io/Game-Time上获取。

0

相关内容

口语语言模型

口语语言模型

多模态大型语言模型中的空间推理：任务、基准和方法综述

多模态大型语言模型中的空间推理：任务、基准和方法综述

专知会员服务

23+阅读 · 2025年11月21日

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

专知会员服务

32+阅读 · 2025年10月1日

多模态大型语言模型：综述

多模态大型语言模型：综述

专知会员服务

47+阅读 · 2025年6月14日

大语言模型与小语言模型协同机制综述

大语言模型与小语言模型协同机制综述

专知会员服务

40+阅读 · 2025年5月15日

《口语语言模型研究现状：一项全面综述》

《口语语言模型研究现状：一项全面综述》

专知会员服务

16+阅读 · 2025年4月14日

当持续学习遇上多模态大型语言模型：综述

当持续学习遇上多模态大型语言模型：综述

专知会员服务

33+阅读 · 2025年3月5日

小型语言模型综述

小型语言模型综述

专知会员服务

56+阅读 · 2024年10月29日

《多模态大语言模型评估综述》

《多模态大语言模型评估综述》

专知会员服务

41+阅读 · 2024年8月29日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

26+阅读 · 2023年4月4日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

利用动态深度学习预测金融时间序列基于Python

利用动态深度学习预测金融时间序列基于Python

量化投资与机器学习

18+阅读 · 2018年10月30日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

时间卷积网络（TCN）将取代RNN成为NLP预测领域王者

时间卷积网络（TCN）将取代RNN成为NLP预测领域王者

AI前线

11+阅读 · 2018年5月14日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

自然语言处理（二）机器翻译篇 (NLP: machine translation)

自然语言处理（二）机器翻译篇 (NLP: machine translation)

DeepLearning中文论坛

12+阅读 · 2015年7月1日

混沌时间序列Volterra建模及其在语音信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

心理与教育测量中项目反应时间数据的统计建模及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

稳健随机均值模型在时空数据分析中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

形状记忆合金时效效应的微观机理及调控方法

国家自然科学基金

0+阅读 · 2014年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

动态网络中信息传播时间的理论分析与跨层算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

信号时频分析与包络的数学模型

国家自然科学基金

1+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

Game-Time: Evaluating Temporal Dynamics in Spoken Language Models

Arxiv

0+阅读 · 5月1日

Fairness Testing of Large Language Models in Role-Playing

Arxiv

0+阅读 · 4月22日

Micro Language Models Enable Instant Responses

Arxiv

0+阅读 · 4月21日

TempusBench: An Evaluation Framework for Time-Series Forecasting

Arxiv

0+阅读 · 4月13日

Semantic-Enhanced Time-Series Forecasting via Large Language Models

Arxiv

0+阅读 · 4月12日

StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos

Arxiv

0+阅读 · 3月27日

TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs

Arxiv

0+阅读 · 3月26日

TiCo: Time-Controllable Training for Spoken Dialogue Models

Arxiv

0+阅读 · 3月23日

Parameter-Efficient Fine-Tuning Methods for Pretrained Language Models: A Critical Review and Assessment

Arxiv

17+阅读 · 2023年12月19日

A Survey on Multimodal Large Language Models

Arxiv

25+阅读 · 2023年6月23日

VIP会员

文章信息

相关主题

口语语言模型

最新内容

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

3+阅读 · 今天14:49

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

1+阅读 · 今天14:25

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

2+阅读 · 今天13:57

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

2+阅读 · 今天13:27

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

11+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

10+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

8+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

6+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

8+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

9+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

8+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

10+阅读 · 7月20日

相关VIP内容

多模态大型语言模型中的空间推理：任务、基准和方法综述

多模态大型语言模型中的空间推理：任务、基准和方法综述

专知会员服务

23+阅读 · 2025年11月21日

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

专知会员服务

32+阅读 · 2025年10月1日

多模态大型语言模型：综述

多模态大型语言模型：综述

专知会员服务

47+阅读 · 2025年6月14日

大语言模型与小语言模型协同机制综述

大语言模型与小语言模型协同机制综述

专知会员服务

40+阅读 · 2025年5月15日

《口语语言模型研究现状：一项全面综述》

《口语语言模型研究现状：一项全面综述》

专知会员服务

16+阅读 · 2025年4月14日

当持续学习遇上多模态大型语言模型：综述

当持续学习遇上多模态大型语言模型：综述

专知会员服务

33+阅读 · 2025年3月5日

小型语言模型综述

小型语言模型综述

专知会员服务

56+阅读 · 2024年10月29日

《多模态大语言模型评估综述》

《多模态大语言模型评估综述》

专知会员服务

41+阅读 · 2024年8月29日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

对抗环境下超视距目标打击的情报支援

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

相关资讯

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

26+阅读 · 2023年4月4日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

利用动态深度学习预测金融时间序列基于Python

利用动态深度学习预测金融时间序列基于Python

量化投资与机器学习

18+阅读 · 2018年10月30日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

时间卷积网络（TCN）将取代RNN成为NLP预测领域王者

时间卷积网络（TCN）将取代RNN成为NLP预测领域王者

AI前线

11+阅读 · 2018年5月14日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

自然语言处理（二）机器翻译篇 (NLP: machine translation)

自然语言处理（二）机器翻译篇 (NLP: machine translation)

DeepLearning中文论坛

12+阅读 · 2015年7月1日

相关论文

Game-Time: Evaluating Temporal Dynamics in Spoken Language Models

Arxiv

0+阅读 · 5月1日

Fairness Testing of Large Language Models in Role-Playing

Arxiv

0+阅读 · 4月22日

Micro Language Models Enable Instant Responses

Arxiv

0+阅读 · 4月21日

TempusBench: An Evaluation Framework for Time-Series Forecasting

Arxiv

0+阅读 · 4月13日

Semantic-Enhanced Time-Series Forecasting via Large Language Models

Arxiv

0+阅读 · 4月12日

StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos

Arxiv

0+阅读 · 3月27日

TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs

Arxiv

0+阅读 · 3月26日

TiCo: Time-Controllable Training for Spoken Dialogue Models

Arxiv

0+阅读 · 3月23日

Parameter-Efficient Fine-Tuning Methods for Pretrained Language Models: A Critical Review and Assessment

Arxiv

17+阅读 · 2023年12月19日

A Survey on Multimodal Large Language Models

Arxiv

25+阅读 · 2023年6月23日

相关基金

混沌时间序列Volterra建模及其在语音信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

心理与教育测量中项目反应时间数据的统计建模及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

稳健随机均值模型在时空数据分析中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

形状记忆合金时效效应的微观机理及调控方法

国家自然科学基金

0+阅读 · 2014年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

动态网络中信息传播时间的理论分析与跨层算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

信号时频分析与包络的数学模型

国家自然科学基金

1+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员