TurnWise: The Gap between Single- and Multi-turn Language Model Capabilities - 专知论文

会员服务 ·

0

多轮对话 · 语言模型 · 交互 · 基准 · 轮数 ·

TurnWise: The Gap between Single- and Multi-turn Language Model Capabilities

翻译：TurnWise：单轮与多轮语言模型能力之间的差距

Victoria Graf,Valentina Pyatkin,Nouha Dziri,Nathan Lambert,Hannaneh Hajishirzi

Multi-turn conversations are a common and critical mode of language model interaction. However, current open training and evaluation data focus on single-turn settings, failing to capture the additional dimension of these longer interactions. To understand this multi-/single-turn gap, we first introduce a new benchmark, TurnWiseEval, for multi-turn capabilities that is directly comparable to single-turn chat evaluation. Our evaluation isolates multi-turn specific conversational ability through pairwise comparison to equivalent single-turn settings. We additionally introduce our synthetic multi-turn data pipeline TurnWiseData which allows the scalable generation of multi-turn training data. Our experiments with Olmo 3 show that training with multi-turn data is vital to achieving strong multi-turn chat performance, and that including as little as 10k multi-turn conversations during post-training can lead to a 12% improvement on TurnWiseEval.

翻译：多轮对话是语言模型交互中一种常见且关键的模式。然而，当前公开的训练和评估数据主要集中于单轮设置，未能捕捉这些更长交互的额外维度。为了理解这种多轮/单轮能力差距，我们首先引入了一个新的多轮能力基准测试——TurnWiseEval，该基准可直接与单轮聊天评估进行对比。我们的评估通过与等效的单轮设置进行成对比较，从而分离出多轮对话特有的能力。此外，我们还介绍了我们合成的多轮数据生成流程 TurnWiseData，它允许可扩展地生成多轮训练数据。我们在 Olmo 3 上的实验表明，使用多轮数据进行训练对于实现强大的多轮聊天性能至关重要，并且在后期训练中仅加入约 1 万条多轮对话即可在 TurnWiseEval 上带来 12% 的性能提升。

0

相关内容

多轮对话

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

专知会员服务

9+阅读 · 5月5日

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

UTC: 用于视觉对话的任务间对比学习的统一Transformer

UTC: 用于视觉对话的任务间对比学习的统一Transformer

专知会员服务

14+阅读 · 2022年5月4日

【Google AI】多模态瓶颈Transformer(MBT):一种新的模态融合模型，Multimodal Bottleneck Transformer (MBT): A New Model for Modality Fusion

【Google AI】多模态瓶颈Transformer(MBT):一种新的模态融合模型，Multimodal Bottleneck Transformer (MBT): A New Model for Modality Fusion

专知会员服务

57+阅读 · 2022年3月20日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

深度神经网络模型的个体差异，Individual differences among deep neural network models

深度神经网络模型的个体差异，Individual differences among deep neural network models

专知会员服务

10+阅读 · 2020年1月11日

【NLP模型的跨语言/跨领域迁移】《Transferring NLP models across languages and domains》

【NLP模型的跨语言/跨领域迁移】《Transferring NLP models across languages and domains》

专知会员服务

43+阅读 · 2019年11月25日

【NLP| 推荐文章】从统一文本到文本探讨迁移学习的局限性（Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer）

【NLP| 推荐文章】从统一文本到文本探讨迁移学习的局限性（Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer）

专知会员服务

20+阅读 · 2019年11月24日

大规模跨领域中文任务导向多轮对话数据集及模型CrossWOZ

大规模跨领域中文任务导向多轮对话数据集及模型CrossWOZ

AINLP

10+阅读 · 2020年4月16日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

12+阅读 · 2019年3月26日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

多轮对话之对话管理：Dialog Management

多轮对话之对话管理：Dialog Management

PaperWeekly

18+阅读 · 2018年1月15日

赛尔原创 | 教聊天机器人进行多轮对话

赛尔原创 | 教聊天机器人进行多轮对话

哈工大SCIR

18+阅读 · 2017年9月18日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

不同加工层次和不同时空尺度下无意识加工之间的相互作用

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Transient Turn Injection: Exposing Stateless Multi-Turn Vulnerabilities in Large Language Models

Arxiv

0+阅读 · 4月23日

Closing the Modality Reasoning Gap for Speech Large Language Models

Arxiv

0+阅读 · 4月20日

Round-Trip Translation Reveals What Frontier Multilingual Benchmarks Miss

Arxiv

0+阅读 · 4月14日

A State-Update Prompting Strategy for Efficient and Robust Multi-turn Dialogue

Arxiv

0+阅读 · 4月7日

Beyond the Assistant Turn: User Turn Generation as a Probe of Interaction Awareness in Language Models

Arxiv

0+阅读 · 4月2日

Pretrained Multilingual Transformers Reveal Quantitative Distance Between Human Languages

Arxiv

0+阅读 · 3月18日

Closing the Gap Between Text and Speech Understanding in LLMs

Arxiv

0+阅读 · 2月23日

Multilingual Large Language Models do not comprehend all natural languages to equal degrees

Arxiv

0+阅读 · 2月23日

Narrowing the Complexity Gap in the Evaluation of Large Language Models

Arxiv

0+阅读 · 2月21日

Asking Forever: Universal Activations Behind Turn Amplification in Conversational LLMs

Arxiv

0+阅读 · 2月19日

VIP会员

文章信息

相关主题

最新内容

【博士论文】面向可扩展且可信智能系统的强化学习

【博士论文】面向可扩展且可信智能系统的强化学习

专知会员服务

0+阅读 · 今天12:32

世界动作模型: 具身AI的下一个前沿

世界动作模型: 具身AI的下一个前沿

专知会员服务

0+阅读 · 今天12:28

全球十大防空反导系统：列表、射程与用途

全球十大防空反导系统：列表、射程与用途

专知会员服务

10+阅读 · 今天3:53

俄乌战争中的乌克兰一体化防空反导实战经验教训（5000字，中文版下载）

俄乌战争中的乌克兰一体化防空反导实战经验教训（5000字，中文版下载）

专知会员服务

20+阅读 · 今天3:03

集中式指挥、分布式控制、脱节训练？——统一作战管理架构是北约分布式作战与训练的关键（中文版PDF下载）

集中式指挥、分布式控制、脱节训练？——统一作战管理架构是北约分布式作战与训练的关键（中文版PDF下载）

专知会员服务

15+阅读 · 今天2:35

《实现协作自主：从人机团队到多智能体系统》190页

《实现协作自主：从人机团队到多智能体系统》190页

专知会员服务

11+阅读 · 今天2:31

《推进多智能体系统：面向可扩展与鲁棒的学习与控制》200页

《推进多智能体系统：面向可扩展与鲁棒的学习与控制》200页

专知会员服务

7+阅读 · 今天2:28

《基于事件相机的模拟与神经网络处理在自主空中加油中的应用》最新100页

《基于事件相机的模拟与神经网络处理在自主空中加油中的应用》最新100页

专知会员服务

8+阅读 · 今天2:25

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

专知会员服务

4+阅读 · 5月12日

人工智能解释公平性：统一框架、公理与负责任AI的未来方向

人工智能解释公平性：统一框架、公理与负责任AI的未来方向

专知会员服务

7+阅读 · 5月12日

《美军软件工厂案例研究：空军数字人才的人员需求》

《美军软件工厂案例研究：空军数字人才的人员需求》

专知会员服务

11+阅读 · 5月12日

《美国防部DevSecOps实践现状：软件工厂之现代战争的数字兵工厂》47页文件

《美国防部DevSecOps实践现状：软件工厂之现代战争的数字兵工厂》47页文件

专知会员服务

11+阅读 · 5月12日

有意义的人类指挥：迈向军事人机交互新模型探析（中文版PDF下载，2.5万字，2026年）

有意义的人类指挥：迈向军事人机交互新模型探析（中文版PDF下载，2.5万字，2026年）

专知会员服务

22+阅读 · 5月12日

《执行无人机蜂群任务：智能体增强大语言模型推理赋能无人机物联网》

《执行无人机蜂群任务：智能体增强大语言模型推理赋能无人机物联网》

专知会员服务

10+阅读 · 5月12日

下一代软件定义无线电：锻造现代战场的数字支柱

下一代软件定义无线电：锻造现代战场的数字支柱

专知会员服务

9+阅读 · 5月12日

相关VIP内容

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

专知会员服务

9+阅读 · 5月5日

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

UTC: 用于视觉对话的任务间对比学习的统一Transformer

UTC: 用于视觉对话的任务间对比学习的统一Transformer

专知会员服务

14+阅读 · 2022年5月4日

【Google AI】多模态瓶颈Transformer(MBT):一种新的模态融合模型，Multimodal Bottleneck Transformer (MBT): A New Model for Modality Fusion

【Google AI】多模态瓶颈Transformer(MBT):一种新的模态融合模型，Multimodal Bottleneck Transformer (MBT): A New Model for Modality Fusion

专知会员服务

57+阅读 · 2022年3月20日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

深度神经网络模型的个体差异，Individual differences among deep neural network models

深度神经网络模型的个体差异，Individual differences among deep neural network models

专知会员服务

10+阅读 · 2020年1月11日

【NLP模型的跨语言/跨领域迁移】《Transferring NLP models across languages and domains》

【NLP模型的跨语言/跨领域迁移】《Transferring NLP models across languages and domains》

专知会员服务

43+阅读 · 2019年11月25日

【NLP| 推荐文章】从统一文本到文本探讨迁移学习的局限性（Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer）

【NLP| 推荐文章】从统一文本到文本探讨迁移学习的局限性（Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer）

专知会员服务

20+阅读 · 2019年11月24日

热门VIP内容

开通专知VIP会员享更多权益服务

世界动作模型: 具身AI的下一个前沿

俄乌战争中的乌克兰一体化防空反导实战经验教训（5000字，中文版下载）

【博士论文】面向可扩展且可信智能系统的强化学习

全球十大防空反导系统：列表、射程与用途

相关资讯

大规模跨领域中文任务导向多轮对话数据集及模型CrossWOZ

大规模跨领域中文任务导向多轮对话数据集及模型CrossWOZ

AINLP

10+阅读 · 2020年4月16日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

12+阅读 · 2019年3月26日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

多轮对话之对话管理：Dialog Management

多轮对话之对话管理：Dialog Management

PaperWeekly

18+阅读 · 2018年1月15日

赛尔原创 | 教聊天机器人进行多轮对话

赛尔原创 | 教聊天机器人进行多轮对话

哈工大SCIR

18+阅读 · 2017年9月18日

相关论文

Transient Turn Injection: Exposing Stateless Multi-Turn Vulnerabilities in Large Language Models

Arxiv

0+阅读 · 4月23日

Closing the Modality Reasoning Gap for Speech Large Language Models

Arxiv

0+阅读 · 4月20日

Round-Trip Translation Reveals What Frontier Multilingual Benchmarks Miss

Arxiv

0+阅读 · 4月14日

A State-Update Prompting Strategy for Efficient and Robust Multi-turn Dialogue

Arxiv

0+阅读 · 4月7日

Beyond the Assistant Turn: User Turn Generation as a Probe of Interaction Awareness in Language Models

Arxiv

0+阅读 · 4月2日

Pretrained Multilingual Transformers Reveal Quantitative Distance Between Human Languages

Arxiv

0+阅读 · 3月18日

Closing the Gap Between Text and Speech Understanding in LLMs

Arxiv

0+阅读 · 2月23日

Multilingual Large Language Models do not comprehend all natural languages to equal degrees

Arxiv

0+阅读 · 2月23日

Narrowing the Complexity Gap in the Evaluation of Large Language Models

Arxiv

0+阅读 · 2月21日

Asking Forever: Universal Activations Behind Turn Amplification in Conversational LLMs

Arxiv

0+阅读 · 2月19日

相关基金

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

不同加工层次和不同时空尺度下无意识加工之间的相互作用

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员